RTX 4090の24GB VRAMは、70Bクラスのモデルを量子化なしで動かすには足りない。一方、MacBook ProのApple Silicon統合メモリ48GBは帯域幅に優れるが、CUDAエコシステムとは根本的に異なるアーキテクチャだ。「2台を合わせれば72GB超の実効メモリ空間が使える」という発想は自然だが、現実はそう単純ではない。Sourceが示す実験結果は、その難しさを率直に伝えている。

USB4/Thunderbolt接続の実測:帯域は出るが品質は別問題

解説:RTX 4090とMacBook M4 Proを束ねてローカルLLMを動かせるか?現実的な検証(記事内画像)

投稿者はMacBook ProとWindowsデスクトップをUSB-C/USB4で直結し、20Gbpsのリンクを確立したと報告している。しかしiperf3による実測では安定した10Gbpsすら得られなかったという。リンク速度と実効スループットが乖離するのは珍しくない。USB4はプロトコルオーバーヘッドや実装品質によって大きくばらつく。

比較対象として、同投稿者はMacBook Pro同士のEXO接続も試している。こちらはThunderbolt/USB4で約40Gbps、RDMAセットアップでは80〜120Gbpsを達成し、96GB統合メモリの分散推論として「驚くほどまともな結果」が得られたとしている。同一アーキテクチャ・同一OS間であれば、EXOのような分散推論フレームワークが機能することは確認されている。問題はWindowsとmacOS、CUDAとMetal、という異種環境の組み合わせだ。

Apple SiliconとNVIDIA CUDAの非対称性:これは設計思想の違いだ

Apple SiliconはCPU・GPU・Neural Engineが統合メモリを共有する。モデルのレイヤーをGPUとCPUにまたがって配置しても、メモリコピーのペナルティが小さい。一方、NVIDIAのアーキテクチャではVRAMとシステムRAMは別バスに乗っており、VRAMを超えてシステムRAMにスピルオーバーした瞬間に推論速度が急落する。投稿者自身も「VRAMの限界を超えるとパフォーマンスが激しく落ちる」と明記している。

この非対称性は、2台を単純に「足し算」できないことを意味する。EXOやllama.cppのRPC機能は異種デバイス間の分散推論をサポートしつつあるが、CUDAバックエンドとMetalバックエンドを同一モデルのレイヤー分割で協調動作させる構成は、2026年時点でも実験的な領域にとどまると考えられる。ソース投稿者自身も「このセットアップはおそらくWindowsでは不可能」と認識しており、Linuxへの移行を検討していると述べている。

現実的な代替案:eGPUドックとオフロード分離

投稿者が提示するもう一つの方向性は、RTX 4090をeGPUドック経由でMacBook Proに接続するというものだ。ただしApple SiliconのMacはeGPU(外付けGPU)を公式にサポートしておらず、macOS 13以降でThunderbolt経由のeGPUサポートは事実上廃止されている。この選択肢は現状では機能しないと見ている。

現実的な運用として考えられるのは、2台を「並列」ではなく「役割分担」で使う構成だ。重いバッチ処理や量子化モデルの高速推論はRTX 4090側(Linux化したデスクトップ)に任せ、MacBook側はAPIクライアントまたは軽量モデルのローカル実行に徹する。llama.cppのサーバーモードやOllamaを使えば、ネットワーク越しのリクエスト分散は比較的容易に構成できる。ただしこれは「分散推論」ではなく「タスク振り分け」であり、1つの大型モデルを2台で分割実行することにはならない。

結論:72GBの夢は、20Gbpsの現実に砕かれる

RTX 4090の24GBとM4 Proの48GBを足して72GBの実効推論空間を作るというアイデアは、ハードウェアスペックシートの上では魅力的だ。しかし異種OS・異種アーキテクチャ・不安定なUSB4スループットという三重の制約が重なる。Mac同士のEXOが機能したのは、同一アーキテクチャと成熟したThunderbolt実装があったからにすぎない。

2018年のIntel 10nm遅延問題と同じ構図だ。「技術的に可能なはず」という期待と、「実際の歩留まりと実装品質」の間には常にギャップがある。RTX 4090を持て余しているなら、Linux上でllama.cppサーバーを立て、MacBook側からAPIを叩く構成が今できる最善だ。「革命的な分散推論」を夢見るより、手元のハードウェアの得意領域を素直に使い分ける方がROIは高い。

関連リンク