ローカルLLM推論エンジン「Atlas」がOSS化、DGX SparkでQwen3.5-35Bを130tok/s達成

Atlas OSS化の概要：2コマンドで即起動

検知。2026年5月6日20時36分（UTC）、LocalLLaMAコミュニティへの投稿でAtlasのオープンソース化が宣言された。Sourceによると、数週間前に「DGX SparkでQwen3.5-35Bを102tok/s安定稼働」と報告したチームが、今日その全コードを公開した。

スタックの構成はPure Rust＋CUDA。PythonランタイムもPyTorchも存在しない。Dockerイメージサイズは約2.5GB、コールドスタートは2分未満。開発チームの主張は明快だ。「Sparkのボトルネックはシリコンではなかった。プロンプトとGPUの間に挟まる20GB超の汎用Pythonスタックが原因だった」。HTTPハンドラからカーネルディスパッチまで全層を書き直した結果が今回の数値である。

デプロイは2コマンドで完結する。`docker pull avarok/atlas-gb10:latest`の後、`sudo docker run`でモデル名を渡すだけだ。OpenAI互換API＋Anthropic互換APIを同一ポートで提供するため、Claude Code、Cline、OpenCode、Open WebUIとそのまま接続できる。エコシステムへの統合コストはゼロに近い。

実測スループット：モデル別数値の全容

DGX Spark（GB10、単体）での計測結果を整理する。

Qwen3.5-35B（NVFP4、MTP K=2）: ピーク130tok/s、sustained約111tok/s。vLLM比3.0〜3.3倍。
Qwen3.5-122B（NVFP4、EP=2）: decode約50tok/s。
Qwen3-Next-80B-A3B（NVFP4、MTP）: 約87tok/s。
Nemotron-3 Nano 30B（FP8）: 約88tok/s。
Qwen3.6-35B-FP8: 100tok/s超（タイトル記載値）。

比較対象のvLLMはPythonベースの現行デファクトスタンダードである。3倍超のスループット差は、アーキテクチャ選択の違いが直接数値に現れた結果だ。推測ではなく、同一ハードウェア・同一テスト時間での計測値として報告されている。

技術的差別化要因は4点に集約される。①Blackwell SM120/121向けに手動チューニングされたCUDAカーネル（Attention、MoE、GDN、Mamba-2をカバー）。②テンソルコア上のネイティブNVFP4＋FP8サポート。③MTP（Multi-Token Prediction）投機的デコーディングによるデコードスループット最大3倍向上。④OpenAI＋Anthropic APIの同一ポート提供。汎用フォールバックは一切存在しない設計だ。

ロードマップ：Blackwell以外への展開計画

現時点のAtlasはDGX Spark（GB10）専用ビルドだ。しかし開発チームは次のターゲットを明示している。

第一がStrix Halo（AMD）ポート。Spectral Computeとの協業で進行中であり、AMDが実機ハードウェアを提供済みとのことだ。第二がRTX 6000 Pro Blackwell対応。ロードマップに明記されている。開発方針は「20チップを雑にやるより4チップをきちんとやる」と表現された。カーネル哲学をチップごとに最適化適用する戦略である。

コミュニティへの姿勢も明確だ。投稿者は「ロードマップは本当にコミュニティ主導」と宣言し、エッジケース・変なモデル・壊れたコンフィグを持ち込むよう呼びかけている。Minimax2.7、Qwen3.6、Gemmaを含むフルモデルマトリクスは公式サイトに掲載されている。

記者の視点：Pythonスタック解体の潮流

Atlasが示したのは性能数値だけではない。「PyTorchを捨てる」という設計判断の実証だ。vLLMはコミュニティの厚みと汎用性で強いが、特定ハードウェアに最適化されたRust＋CUDAスタックが正面から3倍超の差をつけた事実は重い。

DGX Sparkというニッチなハードウェアターゲットから始まった点は注目に値する。「まず一点突破、次に横展開」の戦略は現実的だ。AMD実機提供という動きも、エコシステムの取り込みを急ぐベンダー側の意図を示している。

ただし現時点で独立した第三者による再現検証は確認できていない。130tok/sという数値の信頼性は、コミュニティによる追試が積み重なって初めて確定する。OSSである以上、その検証は誰でも実施できる。数字が正しければ、ローカル推論の標準スタックを巡る競争は新局面に入る。

UNIWIRE

UNIWIRE

ローカルLLM推論エンジン「Atlas」がOSS化、DGX SparkでQwen3.5-35Bを130tok/s達成

速報。GB10 Solution製の推論エンジン「Atlas」がオープンソース化。Pure Rust＋CUDAで構築、PyTorch不使用。DGX Spark（GB10）上でQwen3.5-35Bを最大130tok/s（sustained 111tok/s）で駆動。vLLM比3.0〜3.3倍のスループットを計測した。

Atlas OSS化の概要：2コマンドで即起動

実測スループット：モデル別数値の全容

ロードマップ：Blackwell以外への展開計画

記者の視点：Pythonスタック解体の潮流

関連リンク

Intel ARC向けllama.cpp PR、プロンプト処理速度を約1.9倍に改善

Google NotebookLM、TikTok風60秒縦型AIクリップ生成機能を追加

中国Z.aiのGLM-5.2、サイバーセキュリティ分野でAnthropicのMythosに匹敵か

オープンモデルをトレントで配布——HuggingFaceをWebシードに活用する「Model Registry」登場

AIは「ループ」時代へ——エージェント群が背景で無限稼働する新潮流

個人開発者が500Mパラメータ LLM と330M画像生成モデルをゼロから構築、総費用800ドル