SM120 NVFP4 MMQ、llama.cppへの統合が完了
llama.cppの公式リポジトリ(ggml-org管理)に、SM120アーキテクチャ向けのNVFP4ネイティブMMQ(Mixed Matrix Quantization)実装がマージされた。該当PRは#22196。マージ日時は2026年4月29日(UTC)付近であることが、Redditの投稿から確認できる。
SM120はNVIDIAのBlackwellアーキテクチャに属するストリーミングマルチプロセッサ世代だ。NVFP4(4-bit浮動小数点)はBlackwellが新たにネイティブサポートする量子化フォーマットであり、従来のINT4やFP8とは異なる演算パスを持つ。llama.cppがこのフォーマットをMMQレベルでネイティブに扱えるようになったことは、Blackwell GPU上でのローカル推論において質的な変化をもたらす可能性がある。「Preliminary(予備的)」という表現がPR名に残っているため、最終的な最適化は継続中と推測される。ただしマージ自体は完了しており、mainブランチで利用可能な状態だ。
対応GGUFモデルが即日公開——コミュニティの反応速度が際立つ
マージ報告と同タイミングで、複数のNVFP4形式GGUFがHugging Face上に登場した。確認されているのは以下の4モデルだ。
- Gemma 4 31B Instruct NVFP4 GGUF(CISCai作): HuggingFace
- Gemma 4 31B Instruct NVFP4 GGUF(stevelikesrhino作): HuggingFace
- Nemotron Cascade 2 30B A3B NVFP4 GGUF(PR著者本人・michaelw9999作): HuggingFace
- Qwen3.5 35B A3B NVFP4 GGUF(valikk123作): HuggingFace
PR著者自身がNemotron Cascade 2のGGUFを公開している点は注目に値する。実装者が即座に動作検証用モデルを提供するという流れは、品質担保の観点からも合理的だ。GemmaについてはCISCaiとstevelikesrhino の2者が独立してGGUFを作成・公開しており、コミュニティ側の需要と反応速度が高いことを示している。
NVFP4はBF16比で理論上のメモリ帯域消費を大幅に削減できる。30B〜35Bクラスのモデルをローカルで動かす際のVRAM要件が実質的に下がるため、RTX 5090等のBlackwell民生GPU保有者にとって直接的なメリットがある。ただし現時点でSM120ネイティブパスが有効になるのはBlackwellアーキテクチャのGPUに限定される。SM89(Ada Lovelace)以前の世代では従来の量子化パスにフォールバックすると推測される。
NVFP4量子化の技術的位置づけ
NVFP4はNVIDIAがBlackwellで導入した4-bit浮動小数点フォーマットだ。INT4量子化と比較してダイナミックレンジが広く、特にアウトライアー値の多いアクティベーション層で有利とされる。MMQ(Mixed Matrix Quantization)との組み合わせにより、重み行列の演算を混合精度で処理できる。llama.cppにおけるMMQは、GPUカーネルレベルで量子化された行列積を直接実行する仕組みであり、デクォンタイズ→FP16演算→という従来の2段階処理を省略できる。これがレイテンシ削減に直結する。
NVFP4のGGUF対応は、llama.cppが単なるINT量子化ツールから、ハードウェア世代ごとのネイティブ演算フォーマットに追随するフレームワークへと進化していることを示す。TensorRT-LLMやvLLMのような商用スタックが先行してきたBlackwell最適化の領域に、オープンソースのローカル推論スタックが本格的に参入した形だ。
結論——速度と対応範囲、両方で「本物」の進捗
PRマージからGGUF公開まで、実質的にゼロ日で完結している。これはllama.cppエコシステムの成熟度を示す数字だ。「Preliminary」という留保はあるが、mainブランチへの統合は事実であり、実用可能な状態にある。Blackwell GPUを持つユーザーにとっては、今日から試せる変化だ。今後の焦点は、SM120ネイティブパスの最終的なパフォーマンス数値(トークン/秒、VRAM使用量)が公式ベンチマークとして出てくるかどうかだ。数字が出るまでは、ログと自前の計測だけが真実である。






