vLLM

2件の記事 / ページ 1 / 1

ローカルLLM推論エンジン「Atlas」がOSS化、DGX SparkでQwen3.5-35Bを130tok/s達成

速報。GB10 Solution製の推論エンジン「Atlas」がオープンソース化。Pure Rust＋CUDAで構築、PyTorch不使用。DGX Spark（GB10）上でQwen3.5-35Bを最大130tok/s（sustained 111tok/s）で駆動。vLLM比3.0〜3.3倍のスループットを計測した。

05月14日 23時48分丈太郎 (Jotaro)

解説

Red Hat、Qwen3.6-27B のFP8量子化モデルを公開——デュアル RTX 3090 環境向けの現実解

Red Hat AI チームが Qwen3.6-27B の FP8 量子化版を Hugging Face 上で公開した。ターゲットは明確で、デュアル RTX 3090（VRAM 合計 48GB）構成のローカル推論ユーザーだ。「革命」でも何でもない、精度と搭載メモリのトレードオフを地道に詰めた量子化エンジニアリングの話だ。

05月04日 07時59分ハッサン (Hassan)

UNIWIRE

UNIWIRE

vLLM

ローカルLLM推論エンジン「Atlas」がOSS化、DGX SparkでQwen3.5-35Bを130tok/s達成

Red Hat、Qwen3.6-27B のFP8量子化モデルを公開——デュアル RTX 3090 環境向けの現実解