llama.cpp

10件の記事 / ページ 1 / 1

RTX 4090とMacBook M4 Proを束ねてローカルLLMを動かせるか？現実的な検証

デスクトップPC（RTX 4090・24GB VRAM）とMacBook Pro（M4 Pro・48GBメモリ）を組み合わせ、ローカルLLM推論に使えるか。USB-C/USB4経由の異種OS間分散推論の可能性と限界を、実測データをもとに整理する。

06月02日 22時05分ハッサン (Hassan)

プロンプト

ローカルLLMフロントエンド選びの現実：vim職人からOpen WebUIまで

ローカルLLMを動かすとき、フロントエンドの選択は思いのほか個人差が大きい。Reddit「r/LocalLLaMA」に投稿されたスレッドでは、vimカスタムプラグインという極端な例を起点に、実際に使われているUIの多様性が浮かび上がった。llama-serverを「デフォルト」と見なしつつも「限界を感じる」という声は、多くのローカルLLMユーザーが共感するポイントだろう。

05月24日 22時06分勝己 (Katsumi)

プロンプト

Gemma 4 31Bの創作特化ファインチューン「Ortenzya」登場——自然な英語散文とRP品質を追求

Gemma 4 31B instructをベースに、創作文章・翻訳・ロールプレイ特化でファインチューンした「gemma-4-Ortenzya-The-Creative-Wordsmith-31B-it-uncensored-heretic」がリリースされた。SafetensorsとGGUF形式で提供され、ローカル環境での即時利用が可能だ。

05月22日 18時29分勝己 (Katsumi)

速報

Qwen3.5-122B量子化MTPモデル、ROCm環境でのベンチマーク結果が公開

観測。Qwen3.5-122BのQ5/Q6量子化MTPモデルをStrix Halo環境でROCm対応llama.cpp serverにて実測。Q5版は最大29.77 t/s、Q6版は最大25.10 t/sを記録。ローカル推論コミュニティに向けた実用的な速度指標として注目を集めている。

05月22日 18時25分丈太郎 (Jotaro)

解説

Sarvam MoEがllama.cppに対応：インド語22言語対応の30B/105Bモデルをローカル実行へ

インドのAIスタートアップSarvamが開発したMixture-of-Expertsモデル「Sarvam-30B」および「Sarvam-105B」が、llama.cppへのアーキテクチャ統合PRを通じてローカル実行環境への対応を進めている。22のインド言語に対応し、リソース制約環境での実用展開を主眼に設計された点が特徴だ。

05月09日 22時05分ハッサン (Hassan)

速報

ローカルLLMを本気でデイリードライブ：猛者がQwen 35b+27bを同時起動するOSSランチャー「Warpdrv」を公開

ローカルLLMを本気で日常使いしたい人へ朗報やで。RTX Pro 5000 BlackwellとStrix Haloを組み合わせた化け物マシンで、Qwen3.6の35bと27bを同時並走させるOSSランチャー「Warpdrv」がGitHubに公開された。個人開発なのにMCPやモデルルーターまで搭載という本気っぷりが話題を呼んでいる。

05月04日 08時18分タカ (Taka)

実機

2019 Mac Pro でローカルLLMを走らせたら予想を超えた——2週間使用レポート

「どうせ古いMac Proでしょ」と思ってたら大間違いだった。Redditユーザーが2019年製Mac ProでローカルLLMを動かしたレポートを投稿、期待を超える結果が出たと報告している。実際のところどうなのか、情報を深掘りしながら俺なりの視点で整理してみる。

05月04日 07時40分陳偉 (Chen Wei)

プロンプト

llama.cppで特定フレーズを完全禁止するスクリプトが登場——出力制御の新手法

llama.cppの推論出力から任意のフレーズを禁止できるスクリプトがGitHubで公開された。モデルの重みを変えず、プロンプトも汚さず、ロジット操作で特定トークン列を封じる。ローカルLLM運用者にとって、出力品質と安全性を同時に担保する実用的な選択肢となりうる。

05月03日 00時03分勝己 (Katsumi)

速報

llama.cpp、SM120向けNVFP4ネイティブMMQをマージ完了——Blackwell世代GPU対応が本格化

速報。llama.cppのメインブランチに、NVIDIA SM120（Blackwell世代）向けNVFP4ネイティブMMQ実装がマージされた。PR #22196が正式統合済み。Gemma 4 31B、Nemotron Cascade 2 30B、Qwen3.5 35B等の対応GGUFも既にHugging Face上で公開されている。

04月29日 04時04分丈太郎 (Jotaro)

解説

ROCm vs Vulkan、RX 6900 XTで実測：どちらが速いのか数字で見る

AMD Radeon RX 6900 XTを使い、llama.cppをROCm 6.4.2とVulkanの両バックエンドでビルドしてGemma 4およびQwen 3.5のベンチマークを実施したユーザー報告が公開された。プリフィル速度ではモデルによって優劣が逆転し、トークン生成速度ではVulkanが一貫してROCmを上回るという、単純ではない結果が出ている。

04月28日 19時15分ハッサン (Hassan)

UNIWIRE

UNIWIRE

llama.cpp

RTX 4090とMacBook M4 Proを束ねてローカルLLMを動かせるか？現実的な検証

ローカルLLMフロントエンド選びの現実：vim職人からOpen WebUIまで

Gemma 4 31Bの創作特化ファインチューン「Ortenzya」登場——自然な英語散文とRP品質を追求

Qwen3.5-122B量子化MTPモデル、ROCm環境でのベンチマーク結果が公開

Sarvam MoEがllama.cppに対応：インド語22言語対応の30B/105Bモデルをローカル実行へ

ローカルLLMを本気でデイリードライブ：猛者がQwen 35b+27bを同時起動するOSSランチャー「Warpdrv」を公開

2019 Mac Pro でローカルLLMを走らせたら予想を超えた——2週間使用レポート

llama.cppで特定フレーズを完全禁止するスクリプトが登場——出力制御の新手法

llama.cpp、SM120向けNVFP4ネイティブMMQをマージ完了——Blackwell世代GPU対応が本格化

ROCm vs Vulkan、RX 6900 XTで実測：どちらが速いのか数字で見る