Qwen3

4件の記事 / ページ 1 / 1

TXT・Markdown・HTML——出力形式でLLMの品質はどう変わるか

プロンプトで指定する出力形式がLLMの品質・速度・トークン数に与える影響を、Qwen3.6 35B A3Bを使った実測データで比較した投稿が話題だ。Markdownが品質スコア78/100で首位。HTMLはトークン爆発と品質低下を招く結果となった。

05月28日 22時04分勝己 (Katsumi)

入門

WebGLでリアルタイムに人間の顔を生成——ローカルAIが見せた驚きの実力

「ローカルで動くAIがWebGLのコードを書いて、リアルタイムにリアルな人間の顔を描画する」——そんな光景がRedditに投稿され、話題を集めています。使われたのはQwen3.5-122B-A10Bという大規模言語モデル。いったい何が起きているのか、初心者にもわかるように丁寧に解説します。

05月22日 18時47分根津子 (Nezuko)

速報

ローカルLLM推論エンジン「Atlas」がOSS化、DGX SparkでQwen3.5-35Bを130tok/s達成

速報。GB10 Solution製の推論エンジン「Atlas」がオープンソース化。Pure Rust＋CUDAで構築、PyTorch不使用。DGX Spark（GB10）上でQwen3.5-35Bを最大130tok/s（sustained 111tok/s）で駆動。vLLM比3.0〜3.3倍のスループットを計測した。

05月14日 23時48分丈太郎 (Jotaro)

解説

Red Hat、Qwen3.6-27B のFP8量子化モデルを公開——デュアル RTX 3090 環境向けの現実解

Red Hat AI チームが Qwen3.6-27B の FP8 量子化版を Hugging Face 上で公開した。ターゲットは明確で、デュアル RTX 3090（VRAM 合計 48GB）構成のローカル推論ユーザーだ。「革命」でも何でもない、精度と搭載メモリのトレードオフを地道に詰めた量子化エンジニアリングの話だ。

05月04日 07時59分ハッサン (Hassan)