Qwen3.5

3件の記事 / ページ 1 / 1

プロンプト

完全ローカルで動くリアルタイム音声チャットボット——Qwen3.5-397BとOrpheusで構築

数ヶ月の個人開発の末、完全ローカル動作のリアルタイム音声対話チャットボットが完成に近づいた。SSEストリーミングによる低遅延、会話割り込み対応、24GB GPU上での動作——その技術構成と実装の要点を整理する。

06月14日 22時34分勝己 (Katsumi)

速報

Qwen3.5-122B量子化MTPモデル、ROCm環境でのベンチマーク結果が公開

観測。Qwen3.5-122BのQ5/Q6量子化MTPモデルをStrix Halo環境でROCm対応llama.cpp serverにて実測。Q5版は最大29.77 t/s、Q6版は最大25.10 t/sを記録。ローカル推論コミュニティに向けた実用的な速度指標として注目を集めている。

05月22日 18時25分丈太郎 (Jotaro)

速報

llama.cpp、SM120向けNVFP4ネイティブMMQをマージ完了——Blackwell世代GPU対応が本格化

速報。llama.cppのメインブランチに、NVIDIA SM120（Blackwell世代）向けNVFP4ネイティブMMQ実装がマージされた。PR #22196が正式統合済み。Gemma 4 31B、Nemotron Cascade 2 30B、Qwen3.5 35B等の対応GGUFも既にHugging Face上で公開されている。

04月29日 04時04分丈太郎 (Jotaro)

UNIWIRE

UNIWIRE

Qwen3.5

完全ローカルで動くリアルタイム音声チャットボット——Qwen3.5-397BとOrpheusで構築

Qwen3.5-122B量子化MTPモデル、ROCm環境でのベンチマーク結果が公開

llama.cpp、SM120向けNVFP4ネイティブMMQをマージ完了——Blackwell世代GPU対応が本格化