Intel ARC B580、プロンプト処理が510秒→262秒に短縮
観測。Reddit/LocalLLaMAに投稿されたレポートによると、llama.cppのPR #25222適用後、Intel ARC B580環境でのプロンプト処理速度が劇的に向上した。
投稿者が使用した構成はQwen3.6 35B A3B Q5_K_XL。コンテキスト長116kの会話を一から処理するケースで計測した。適用前の処理速度は245t/s、処理時間は510秒。PR適用後は462t/sまで速度が上昇し、処理時間は262秒に短縮された。速度比は約1.89倍、処理時間は約48.6%削減という結果だ。
実行コマンドの主要パラメータは以下の通りだった。`--ctx-size 262144`(最大コンテキスト262k)、`--batch-size 2700`、`--ubatch-size 2700`、`--n-gpu-layers 99`、`--n-cpu-moe 99`、`--spec-type draft-mtp --spec-draft-n-max 3`。投機的デコードも組み合わせた構成である。
Claudeの支援を受けたコミュニティ貢献、現状はF16 KV限定
今回のPRを実装したコントリビューターは、Claudeの補助を受けて開発を進めたと投稿者は言及している。llama.cppのIntel ARC対応はコミュニティ主導で継続的に改善されており、今回もその流れの一環だ。
現時点での制約は明確だ。本PRの最適化はF16 KV(FP16キャッシュ)にのみ適用される。コントリビューター本人は他の量子化形式への対応を今後進める意向を示しているが、リリース時期は未定である。Q8やQ4等の量子化KVキャッシュを使用するユーザーは、現段階では恩恵を受けられない点に注意が必要だ。
Intel ARC向けのllama.cpp最適化は、NVIDIAやAMD向けと比較してリソースが限られる中で進められている。投稿者自身も「ARC ユーザーは4人しかいない」と自嘲気味に述べているが、それでも実測で約1.9倍という数値は無視できない改善幅だ。
数値が示す現実:ハードウェアポテンシャルの引き出し余地
Intel ARC B580はコンシューマー向けGPUとして一定の演算性能を持つが、ソフトウェアスタックの成熟度がNVIDIA CUDAエコシステムに比べて遅れていた。今回の計測結果は、ソフトウェア最適化だけで処理速度が約1.9倍になることを示している。ハードウェア自体のポテンシャルがまだ十分に引き出されていなかった証左と考えられる。
F16 KV対応のみという制約は現実的な課題だが、116kコンテキストという大規模な文脈長での改善効果は実用上の意義が大きい。長文ドキュメント処理やマルチターン会話の継続利用を想定するユーザーにとって、処理待ち時間が510秒から262秒に半減する効果は体感レベルで明確だ。
PR本体の詳細はGitHub PR #25222で確認できる。他量子化への対応拡張が完了した段階で、Intel ARCの実用性評価は再度更新される可能性がある。数値とログだけが真実だ。今後の続報を注視する。






