llama.cpp、SM120向けNVFP4ネイティブMMQをマージ完了——Blackwell世代GPU対応が本格化

SM120 NVFP4 MMQ、llama.cppへの統合が完了

llama.cppの公式リポジトリ（ggml-org管理）に、SM120アーキテクチャ向けのNVFP4ネイティブMMQ（Mixed Matrix Quantization）実装がマージされた。該当PRは#22196。マージ日時は2026年4月29日（UTC）付近であることが、Redditの投稿から確認できる。

SM120はNVIDIAのBlackwellアーキテクチャに属するストリーミングマルチプロセッサ世代だ。NVFP4（4-bit浮動小数点）はBlackwellが新たにネイティブサポートする量子化フォーマットであり、従来のINT4やFP8とは異なる演算パスを持つ。llama.cppがこのフォーマットをMMQレベルでネイティブに扱えるようになったことは、Blackwell GPU上でのローカル推論において質的な変化をもたらす可能性がある。「Preliminary（予備的）」という表現がPR名に残っているため、最終的な最適化は継続中と推測される。ただしマージ自体は完了しており、mainブランチで利用可能な状態だ。

対応GGUFモデルが即日公開——コミュニティの反応速度が際立つ

マージ報告と同タイミングで、複数のNVFP4形式GGUFがHugging Face上に登場した。確認されているのは以下の4モデルだ。

Gemma 4 31B Instruct NVFP4 GGUF（CISCai作）: HuggingFace
Gemma 4 31B Instruct NVFP4 GGUF（stevelikesrhino作）: HuggingFace
Nemotron Cascade 2 30B A3B NVFP4 GGUF（PR著者本人・michaelw9999作）: HuggingFace
Qwen3.5 35B A3B NVFP4 GGUF（valikk123作）: HuggingFace

PR著者自身がNemotron Cascade 2のGGUFを公開している点は注目に値する。実装者が即座に動作検証用モデルを提供するという流れは、品質担保の観点からも合理的だ。GemmaについてはCISCaiとstevelikesrhino の2者が独立してGGUFを作成・公開しており、コミュニティ側の需要と反応速度が高いことを示している。

NVFP4はBF16比で理論上のメモリ帯域消費を大幅に削減できる。30B〜35Bクラスのモデルをローカルで動かす際のVRAM要件が実質的に下がるため、RTX 5090等のBlackwell民生GPU保有者にとって直接的なメリットがある。ただし現時点でSM120ネイティブパスが有効になるのはBlackwellアーキテクチャのGPUに限定される。SM89（Ada Lovelace）以前の世代では従来の量子化パスにフォールバックすると推測される。

NVFP4量子化の技術的位置づけ

NVFP4はNVIDIAがBlackwellで導入した4-bit浮動小数点フォーマットだ。INT4量子化と比較してダイナミックレンジが広く、特にアウトライアー値の多いアクティベーション層で有利とされる。MMQ（Mixed Matrix Quantization）との組み合わせにより、重み行列の演算を混合精度で処理できる。llama.cppにおけるMMQは、GPUカーネルレベルで量子化された行列積を直接実行する仕組みであり、デクォンタイズ→FP16演算→という従来の2段階処理を省略できる。これがレイテンシ削減に直結する。

NVFP4のGGUF対応は、llama.cppが単なるINT量子化ツールから、ハードウェア世代ごとのネイティブ演算フォーマットに追随するフレームワークへと進化していることを示す。TensorRT-LLMやvLLMのような商用スタックが先行してきたBlackwell最適化の領域に、オープンソースのローカル推論スタックが本格的に参入した形だ。

結論——速度と対応範囲、両方で「本物」の進捗

PRマージからGGUF公開まで、実質的にゼロ日で完結している。これはllama.cppエコシステムの成熟度を示す数字だ。「Preliminary」という留保はあるが、mainブランチへの統合は事実であり、実用可能な状態にある。Blackwell GPUを持つユーザーにとっては、今日から試せる変化だ。今後の焦点は、SM120ネイティブパスの最終的なパフォーマンス数値（トークン/秒、VRAM使用量）が公式ベンチマークとして出てくるかどうかだ。数字が出るまでは、ログと自前の計測だけが真実である。

UNIWIRE

UNIWIRE

llama.cpp、SM120向けNVFP4ネイティブMMQをマージ完了——Blackwell世代GPU対応が本格化

速報。llama.cppのメインブランチに、NVIDIA SM120（Blackwell世代）向けNVFP4ネイティブMMQ実装がマージされた。PR #22196が正式統合済み。Gemma 4 31B、Nemotron Cascade 2 30B、Qwen3.5 35B等の対応GGUFも既にHugging Face上で公開されている。

SM120 NVFP4 MMQ、llama.cppへの統合が完了

対応GGUFモデルが即日公開——コミュニティの反応速度が際立つ

NVFP4量子化の技術的位置づけ

結論——速度と対応範囲、両方で「本物」の進捗

OpenAI、モデルが「ゴブリン」を語りたがる奇妙な習性を公式説明

GIGAZINE春のプレゼント企画が終了、応募総数3500人超を記録

「HERMES.md」をコミットメッセージに書くだけでClaude Codeに追加課金が発生するバグ確認

GitHub、重大なRCE脆弱性を6時間以内に修正——Wiz ResearchがAIで発見

GPT-Image-2爆発的拡大——画像生成AIがAGIへの道を歩む2026年春

Qwen 3.6 27B、API提供サービス不在——FP16で使える環境を求める声が急増