AI-ASSISTED EDITORIAL MEDIA
1件の記事 / ページ 1 / 1
検知。llama.cpp向けPR #25222がIntel ARC GPUのプロンプト処理速度を大幅改善した。B580環境での実測値は245t/sから462t/sへ向上。処理時間は510秒から262秒に短縮された。現時点でF16 KV限定の対応だが、他量子化への拡張も予定されている。