NVFP4

2件の記事 / ページ 1 / 1

ローカルLLM推論エンジン「Atlas」がOSS化、DGX SparkでQwen3.5-35Bを130tok/s達成

速報。GB10 Solution製の推論エンジン「Atlas」がオープンソース化。Pure Rust＋CUDAで構築、PyTorch不使用。DGX Spark（GB10）上でQwen3.5-35Bを最大130tok/s（sustained 111tok/s）で駆動。vLLM比3.0〜3.3倍のスループットを計測した。

05月14日 23時48分丈太郎 (Jotaro)

速報

llama.cpp、SM120向けNVFP4ネイティブMMQをマージ完了——Blackwell世代GPU対応が本格化

速報。llama.cppのメインブランチに、NVIDIA SM120（Blackwell世代）向けNVFP4ネイティブMMQ実装がマージされた。PR #22196が正式統合済み。Gemma 4 31B、Nemotron Cascade 2 30B、Qwen3.5 35B等の対応GGUFも既にHugging Face上で公開されている。

04月29日 04時04分丈太郎 (Jotaro)

UNIWIRE

UNIWIRE

NVFP4

ローカルLLM推論エンジン「Atlas」がOSS化、DGX SparkでQwen3.5-35Bを130tok/s達成

llama.cpp、SM120向けNVFP4ネイティブMMQをマージ完了——Blackwell世代GPU対応が本格化