21GPU実測：TTS推論ベンチマークが示すコスパの現実

実験条件と方法論：まず前提を整理する

Redditユーザー /u/urarthur がSourceで公開したこのベンチマークは、クラウドGPUレンタルサービス「vast.ai」上で21種のGPUを数分ずつ借り、TTSモデル「OmniVoice」を動作させたものだ。VRAMピーク使用量は約5GB。評価指標は「xRT（times real-time）」、すなわちリアルタイムの何倍速で音声を生成できるかを示す数値で、参照音声付きの音声クローニングタスクにおける小段落3回実行の平均値を採用している。

最初に断っておくが、これは「科学的分析ではない」とソース本人が明言している。レンタル環境のノイズ、ホストマシンの状態、ネットワーク遅延などの変数は制御されていない。だが、同一タスク・同一モデルを複数GPUで回した相対比較としての参考値は十分に存在する。2018年のIntel 10nm遅延問題で私が学んだのは、「完璧なデータが揃うまで待つ」よりも「不完全なデータを文脈付きで読む」ほうが実務的判断に役立つという事実だ。同じ姿勢でこのデータを読む。

VRAM5GBという条件は意図的に「コンシューマー向けの現実解」を狙ったものと見ている。24GBのRTX 4090や80GBのA100を前提にした議論は、個人開発者やスタートアップには無意味だ。8GB〜16GB帯のGPUが実際にどう振る舞うか、そこに焦点を当てた点は評価できる。

xRT数値が示す世代間・アーキテクチャ間の格差

実測結果で注目すべきは、世代の新しさとxRTが必ずしも比例しないという点だ。コンシューマー向けGPUの中でも、メモリ帯域幅とテンソルコアの世代差が推論速度に直接影響する構造は変わらないが、VRAMが5GB程度のモデルでは「帯域幅で殴る」戦略が効きやすい。RTX 3090はメモリ帯域幅936GB/sを持ち、24GBのVRAMを備える。ソース投稿者自身がRTX 3090を手元の基準機として使っており、この選択は合理的だ。

一方、より新しいアーキテクチャのGPUでも、VRAM容量や帯域幅の制約でスコアが伸び悩む事例が過去に繰り返されている。2020年代前半のLLM推論ブームでも、RTX 3090がRTX 4080を上回るシナリオが一部ワークロードで観測されたのは記憶に新しい。帯域幅が律速になるタスクでは、世代の新しさよりも物理的なメモリ仕様が支配的になる。これは半導体の基礎であり、「新世代＝高速」というマーケティングナラティブに乗せられた購買判断が後悔を生む典型パターンだ。

また、vast.ai経由のレンタルGPUという条件は、データセンター向けGPU（A系列、H系列）も混在している可能性を示唆する。コンシューマーGPUとデータセンターGPUを同列に並べる際の注意点として、冷却環境・電力供給・ECC有無といった要因がスループットに影響する。ソース自身も「科学的分析ではない」と留保しているが、この点は読者が自分のユースケースに当てはめる際に意識すべき変数だ。

コスト視点：xRTだけで判断するのは危険だ

技術的なxRT数値だけを見て「このGPUが最強」と結論づけるのは、ROI分析としては不完全にすぎない。vast.ai上のGPUレンタル単価は機種によって大きく異なり、例えばA100 80GBとRTX 3090では時間単価が3〜5倍以上開くケースが珍しくない。xRTが2倍でも、コストが4倍なら費用対効果は半減する。

TTSのようなリアルタイム性が問われるユースケースでは、「xRT＞1.0であれば実用可能」という閾値が存在する。つまり、xRT 3.0とxRT 10.0の差は、コスト差を正当化するほどの実務的意味を持たない場合が多い。2022年のCrypto冬でGPUマイニング収益性が崩壊した際も、「ハッシュレートの絶対値」ではなく「電力コストあたりのハッシュレート」が生死を分けた。同じ論理がTTS推論にも適用される。

さらに、このベンチマークが対象とするOmniVoiceはVRAMピーク5GBという「小型モデル」だ。モデルが大型化するにつれてVRAM容量の制約が支配的になり、帯域幅優位のGPUが逆転される局面も出てくる。今回の結果を「全TTSワークロードへの一般解」として扱うのは過剰解釈だ。

個人開発者がローカルTTS環境を構築する文脈では、中古RTX 3090（2025年時点の市場価格は概ね5〜8万円台）が依然として費用対効果の高い選択肢である可能性がある。ただしこれは私の推測であり、個人の予算・用途・電力環境によって最適解は異なる。

結論：21GPUの実測値が突きつける現実

今回のベンチマークが示す最大の教訓は、「スペックシートのピーク数値よりも、実ワークロードでの相対性能を実測せよ」という至極当たり前の原則だ。21種のGPUをVRAM5GBのTTSモデルで回した結果は、世代・価格帯・アーキテクチャをまたいだ相対感を与えてくれる点で価値がある。ただし、レンタル環境の変数制御不足、単一モデル・単一タスクへの限定、コスト視点の欠如という三つの限界は常に念頭に置くべきだ。

半導体業界を20年見てきた私の目には、このベンチマークは「NVIDIAのマーケティングデッキを鵜呑みにするな」という古くて正しいメッセージの再確認にすぎない。そして毎年同じ教訓が繰り返されるという事実が、この業界で最も退屈で最も重要な現実だと見ている。

UNIWIRE

UNIWIRE

21GPU実測：TTS推論ベンチマークが示すコスパの現実

実験条件と方法論：まず前提を整理する

xRT数値が示す世代間・アーキテクチャ間の格差

コスト視点：xRTだけで判断するのは危険だ

結論：21GPUの実測値が突きつける現実

MI100 vs RX 9700：ローカルLLM用途でどちらを選ぶべきか

DropboxエンジニアがSQLite上に構築したローカルセマンティック検索「Witchcraft」、20ms以下の応答速度を実現

「なくなれば産業が止まる」──Armとは何者か、その支配構造を冷静に読む

OpenAIがWindows向けCodexに安全なサンドボックスを構築——その設計思想と技術的実態

AMD MI300X上でCNC加工性検証マルチエージェントシステム「MachinaCheck」が登場

Sarvam MoEがllama.cppに対応：インド語22言語対応の30B/105Bモデルをローカル実行へ