Cerebras+gpt-oss-120bの実測値:約3000トークン/秒

速報:Cerebras×gpt-oss-120bは最速か?100B超モデルの推論速度を徹底比較(記事内画像)

観測。Cerebrasが提供するgpt-oss-120bの推論速度は、現在確認されている100Bパラメータ超モデルの中で最速クラスだ。実測値は約3000トークン/秒。この数値はOpenAIやAnthropicが提供するAPI経由のクラウド推論と比較しても、桁が異なるレベルである。Cerebrasが独自開発したWSE(Wafer Scale Engine)チップによる並列処理が、この速度を支えている。

r/LocalLLaMAのスレッドでは、あるエンジニアが「文章を1センテンスずつリアルタイムで言い換えるツール」を構築中であり、フルレスポンスを1秒以内にバッファへ収める要件を提示している。この要件は極めてシビアだ。仮に出力トークン数が200トークンとすると、1秒以内に収めるには最低でも200トークン/秒以上の実効スループットが必要になる。3000トークン/秒という数値はその15倍に相当し、理論上は十分な余裕を持つ。ただし「バッファにロードが集中した際に速度が変動する」という懸念も同スレッドで指摘されている。本番環境でのレイテンシは、ピーク時のキュー待ちや初回トークンまでの時間(TTFT: Time To First Token)にも左右される点は留意が必要だ。

競合プロバイダーの現状:Groq・SambaNova・Together AIとの比較

検知。Cerebrasの対抗馬として名前が挙がるのは主に3社だ。Groq(LPUアーキテクチャ)、SambaNova(RDU)、そしてTogether AI(GPU最適化クラスタ)である。

GroqはMeta製Llama-3.1-70Bで800〜900トークン/秒程度の実測値が複数のベンチマークで報告されている。70Bクラスでの速度であり、120Bクラスになると速度は低下する。GroqがLlama-3.1-405Bを提供しているケースもあるが、スループットは大幅に落ちる。100Bを超えるモデルでCerebrasの3000トークン/秒に迫る数値はGroqからは現時点で確認されていない。

SambaNovaはSamba-1やSamba-CoEといった独自アーキテクチャを持ち、エンタープライズ向けに高速推論を提供している。ただし一般向けAPIとして公開されたベンチマーク数値は限定的であり、Cerebrasと直接比較できるデータは現時点で不足している。

Together AIはGPUクラスタを活用し、Llama-3.1-405BやDeepSeek-V3などの大規模モデルを提供している。スループットはモデルサイズと同時リクエスト数に依存し、ピーク時には100〜300トークン/秒程度まで低下するケースが報告されている。リアルタイム用途には厳しい数値だ。

結論として、100Bパラメータ超かつ本番運用可能な構成でCerebrasを超えるスループットを持つプロバイダーは、2025年5月時点で確認されていない。

1秒以内レスポンスの設計要件:TTFTとスループットの両立

観測。「1秒以内にフルレスポンスをバッファへ」という要件を分解すると、2つの指標が重要になる。TTFT(Time To First Token)とTPS(Tokens Per Second)だ。

TTFTはリクエスト送信からモデルが最初のトークンを返すまでの時間。ネットワークレイテンシ、キュー待ち、プロンプト処理時間が合算される。Cerebrasの場合、TTFTは数十ms〜200ms程度と報告されている。ただしこれは負荷が低い状態での数値であり、高負荷時には劣化する可能性がある。

TPSはその後のトークン生成速度。3000トークン/秒であれば、200トークンの出力なら約67msで完了する計算だ。TTFTが200msであっても、合計267ms程度で1レスポンスが完結する。1秒の要件には十分に収まる。

設計上の注意点として、センテンス単位でAPIを呼び出す場合、1リクエストあたりの入力トークン数が増加するほどTTFTが伸びる傾向がある。プロンプトを最小限に圧縮し、システムプロンプトのキャッシュ(Prompt Cachingが利用可能な場合)を活用することで、TTFTを削減できる。また、ストリーミングレスポンスを使わずに「フルレスポンスをバッファへ」という設計は、最初のトークンが届いた後も全トークン生成完了まで待機することを意味する。ユーザー体験の観点では、ストリーミング表示との組み合わせも検討に値する。

結論:現時点でCerebrasは100B超推論の最速解だが、負荷耐性の検証が必須

数字だけを見れば、Cerebras+gpt-oss-120bは100Bパラメータ超モデルにおいて現在最速の本番運用可能な構成だ。3000トークン/秒という数値は競合を大きく引き離している。ただし、速度は「空いている状態」での計測値に過ぎない。本番投入前に、同時リクエスト数を増やした状態でのTTFTとTPSの劣化特性を必ず計測すべきだ。

また、gpt-oss-120bは推論能力においてもGPT-4oクラスに近い性能を持つとされるが、タスク依存の品質差は存在する。リアルタイム言い換えという用途では、速度と品質のトレードオフを実際のデータで検証することが不可欠である。

AIインフラの高速化競争は2025年も加速している。CerebrasのWSEアーキテクチャに続く新興プレイヤーが登場する可能性は高い。速度の王座は永続しない。ログと数値を監視し続けることが、エンジニアにとって唯一の正解だ。

関連リンク