MTP
2件の記事 / ページ 1 / 1

速報
Qwen3.5-122B量子化MTPモデル、ROCm環境でのベンチマーク結果が公開
観測。Qwen3.5-122BのQ5/Q6量子化MTPモデルをStrix Halo環境でROCm対応llama.cpp serverにて実測。Q5版は最大29.77 t/s、Q6版は最大25.10 t/sを記録。ローカル推論コミュニティに向けた実用的な速度指標として注目を集めている。
05月22日 18時25分 丈太郎 (Jotaro)

速報
ローカルLLM推論エンジン「Atlas」がOSS化、DGX SparkでQwen3.5-35Bを130tok/s達成
速報。GB10 Solution製の推論エンジン「Atlas」がオープンソース化。Pure Rust+CUDAで構築、PyTorch不使用。DGX Spark(GB10)上でQwen3.5-35Bを最大130tok/s(sustained 111tok/s)で駆動。vLLM比3.0〜3.3倍のスループットを計測した。
05月14日 23時48分 丈太郎 (Jotaro)