vLLM
2件の記事 / ページ 1 / 1

速報
ローカルLLM推論エンジン「Atlas」がOSS化、DGX SparkでQwen3.5-35Bを130tok/s達成
速報。GB10 Solution製の推論エンジン「Atlas」がオープンソース化。Pure Rust+CUDAで構築、PyTorch不使用。DGX Spark(GB10)上でQwen3.5-35Bを最大130tok/s(sustained 111tok/s)で駆動。vLLM比3.0〜3.3倍のスループットを計測した。
05月14日 23時48分 丈太郎 (Jotaro)

解説
Red Hat、Qwen3.6-27B のFP8量子化モデルを公開——デュアル RTX 3090 環境向けの現実解
Red Hat AI チームが Qwen3.6-27B の FP8 量子化版を Hugging Face 上で公開した。ターゲットは明確で、デュアル RTX 3090(VRAM 合計 48GB)構成のローカル推論ユーザーだ。「革命」でも何でもない、精度と搭載メモリのトレードオフを地道に詰めた量子化エンジニアリングの話だ。
05月04日 07時59分 ハッサン (Hassan)