Q5・Q6量子化MTP、実測値が出た

速報:Qwen3.5-122B量子化MTPモデル、ROCm環境でのベンチマーク結果が公開(記事内画像)

Redditユーザー /u/Boring_Office が2026年5月16日21:54 UTC、Qwen3.5-122BのMTP(Multi-Token Prediction)量子化モデルのベンチマーク結果を公開した。測定環境はStrix Halo、推論エンジンはROCm対応の`llama.cpp:server-rocm-mtp`。Unsloth製のMTPモデルを使用し、`--spec-type draft-mtp --spec-draft-n-max 3`オプションを付与して計測している。プロンプトは「1000トークン生成」を指示した条件下での実測値だ。

結果の概要を整理する。Q5-MTP-Generalはデコード初期(n_decoded=100付近)で29.77 t/sを記録。トークン数が増えるにつれ速度は低下し、4000トークン超では20.22〜20.24 t/sに収束した。プロンプト評価時間は408.99 ms / 19トークン、総評価時間は207,516.64 ms / 4,200トークン、平均スループットは20.24 t/sだった。

Q6-MTP-Generalは初期で25.10 t/sを記録。こちらも後半に向けて低下し、3,200トークン超で17.17〜17.27 t/sに落ち着いた。プロンプト評価時間は488.39 ms / 19トークン、総評価時間は191,156.72 ms / 3,283トークン、平均スループットは17.17 t/sだった。詳細な計測ログはSourceで確認できる。

Q5とQ6、スループット差は約15〜18%

両量子化レベルの差を数値で比較する。初期スループットはQ5が29.77 t/s、Q6が25.10 t/s。差は4.67 t/s(約18.6%)だ。収束後の平均ではQ5が20.24 t/s、Q6が17.17 t/s。差は3.07 t/s(約17.9%)となる。量子化ビット数が1段階上がることで、精度向上の代償として約15〜19%のスループット低下が生じる計算だ。

プロンプト評価時間にも差が出ている。Q5は408.99 ms、Q6は488.39 ms。同じ19トークンの評価で79.4 ms(約19.4%)の差だ。モデルサイズが大きくなるほどプリフィル段階での負荷も増す。この傾向はKVキャッシュの蓄積が進む長文生成においても同様に影響する。

注目すべきはデコード速度の「初期高速・後期収束」パターンだ。MTPによる投機的デコードはシーケンス初期で効果が高く、文脈が蓄積されるにつれてドラフトトークンの採択率が変動する可能性がある。Q5では100トークン時点の29.77 t/sから4,000トークン超で20.24 t/sへ、約32%の低下を示した。Q6では25.10 t/sから17.17 t/sへ、約31.6%の低下だ。両モデルで低下率がほぼ同等であることは、量子化レベルよりもMTPのドラフト採択特性が支配的である可能性を示唆する。

Strix Halo × ROCm環境の意義

今回の計測環境として使われたStrix Halo(AMD Ryzen AI Max搭載SoC)は、統合GPUと大容量ユニファイドメモリを特徴とする。122Bパラメータという巨大モデルをローカルで動かすには、メモリ帯域と容量が決定的な制約となる。Strix HaloはLPDDR5X構成で最大128GBのユニファイドメモリを搭載可能であり、量子化済みの122Bモデルを単一ノードで扱える数少ないコンシューマー向けプラットフォームの一つだ。

ROCm対応のllama.cpp serverを用いた点も重要だ。AMD GPU向けのROCmスタックはCUDA対応と比較してエコシステムの成熟度で差があるとされてきたが、llama.cppのROCmバックエンドは継続的に改善されている。今回の結果はROCm環境でも実用的なスループットが得られることを実測値で示した事例となる。

Unsloth製MTPモデルの採用も注目点だ。UnslothはQwen等のモデルを独自手法で量子化・最適化するプロジェクトであり、MTP対応の量子化モデルを提供している。`--spec-draft-n-max 3`の設定は1ステップで最大3トークンを投機生成する構成を意味する。この設定値の最適化によってさらなるスループット改善の余地がある可能性がある。

結論:120億超パラメータのローカル推論、実用域に入った

20 t/s超というスループットは、122Bという規模を考えれば実用的な水準だ。GPT-4クラスとされる大規模モデルをローカルで、しかもコンシューマー向けハードウェアで20トークン/秒以上動かせる時代が来た。これは1年前の常識を完全に覆す数値である。

ただし、今回のデータはあくまで単一ユーザーによる単一環境の実測値だ。再現性の確認や他環境との比較は今後のコミュニティ検証に委ねられる。Q5とQ6の選択は用途次第だ。速度優先ならQ5、精度余裕が必要ならQ6。差は約18%。この数値を基準に判断すればよい。ハイプは不要。ログが全てを語っている。