2019 Mac Pro、ローカルLLM界隈でじわじわ注目されている件

実機:2019 Mac Pro でローカルLLMを走らせたら予想を超えた——2週間使用レポート(記事内画像)

正直、最初にこのスレッドを見たとき「またオールドハードウェアの懐古趣味か」と思った。2019年製のMac Pro、通称「チーズおろし器」——あの円筒形じゃなくてタワー型のやつだ。Intel Xeonを積んだ、Appleシリコン移行前の最後の大型タワー機。今さら?って感じは正直あった。

ところがSourceを読んでみると、投稿者の /u/habachilles が「これまでの期待をすべて上回った。驚くべきマシンだ」とかなりの熱量で語っている。LocalLLaMAというコミュニティはわりと辛口な連中が多いので、ここでこの評価が出るのはそれなりに意味があると思う。

投稿では「Smallモデルが中心だが、それでも素晴らしい」という趣旨のコメントが続いており、今後もモデルを追加してアップデートしていくとしている。つまりこれはまだ途中経過レポートだ。数値が少ないのはそのせいだと推測される。

2019 Mac Proのスペックをおさらい——なぜ今もアリなのか

ここで一旦ハードウェアの話をしておきたい。2019 Mac Proのポイントは「拡張性の鬼」という点だ。PCIeスロットが8本あり、メモリは最大1.5TBまで積める(ECC DDR4)。CPUはIntel Xeon W系で、最上位構成では28コアになる。GPUはAMD Radeon Pro W6900Xなどを搭載できるし、MPX Moduleという独自スロット経由でApple製のAfterburnerカード(ProRes専用アクセラレーター)も刺せる。

ローカルLLM的に重要なのはメモリ帯域とVRAM量だ。2019 Mac ProはAppleシリコンのようなユニファイドメモリアーキテクチャではないので、CPU RAMとGPU VRAMは分離している。これはApple M2 UltraやM3 Maxと比べると不利に見える。

ただし、llama.cppなどのCPU推論エンジンを使えば、大容量のECC RAMが直接モデルロードに使えるという強みがある。たとえば192GB RAMを積んでいれば、量子化した70Bクラスのモデルでも余裕でメモリに乗る可能性がある(Q4_K_M換算で約40GB前後)。これは正直デカい。

トークン生成速度(tokens/sec)は公開されていないが、投稿者がSmallモデル中心と言っていることから、7B〜13Bクラスを主に試していると推測される。このサイズならXeon W + 大容量RAMでも実用的な速度——おそらく5〜15 tokens/sec程度——が出ている可能性がある(あくまで推測だ、実測値は続報を待ちたい)。

消費電力については触れられていないが、Xeon Wプラットフォームは一般的にTDP 150W〜205Wクラスで、GPUを加えると全体で400〜600W超になることも珍しくない。これはM2 Ultraの60〜90W前後と比べると相当重い。電気代を気にする人には微妙なポイントだ。

「ハイターへの返答」という投稿のトーン——何が刺さるのか

この投稿で面白いのは冒頭の一文「This post is for the haters(これはアンチへの返答だ)」というスタンスだ。ローカルLLMコミュニティでは「Appleシリコン以外はオワコン」という空気が強くなっている。M3 Max、M4 Ultra、そういった最新チップが推論速度・電力効率ともに圧倒的で、「今さらIntel Macでやる意味ある?」という声は実際に多い。

それに対して「いや、手元にある2019 Mac Proでもマジで動くし、むしろ凄いぞ」という実証レポートを出してきた。これは単なる懐古趣味じゃなくて、「高い最新ハードを買えない/買わない人でも、手持ちのマシンでローカルLLMを楽しめる」という実用的なメッセージだと俺は読んだ。

ローカルLLMの民主化という観点では、これはかなり意義深い。中古市場での2019 Mac Proの価格は構成によって大きく変わるが、ベースモデルなら20〜40万円台で流通しているケースもある(画像参照——Redditスレッドのスクリーンショット)。最新のM4 Ultra Mac Studioが70万円超であることを考えると、「ある程度のスペックを安く手に入れてローカルLLMを走らせる」という選択肢として悪くない。

ただし注意点もある。2019 Mac ProはAppleシリコン非対応なので、Metal Performanceシェーダーを活用したAppleシリコン最適化の恩恵は受けられない。llama.cppのCPUバックエンドやCUDA相当のROCm(AMD GPU使用時)での動作になる。これはAppleシリコンのGPU推論と比べると速度面で不利だ(と推測される)。

続報では具体的なモデル名、tokens/sec、メモリ使用量、温度などの数値が出てくることを期待している。正直、今の段階では「凄い!」という感情レポートであって、数値で殴ってくる系のレビューではない。そこは少し物足りない。

結論——買うべきか、待つべきか

今回のソースは投稿者の主観的な感想レポートであり、ベンチマーク数値が出ていない段階だ。「期待を超えた」という評価は信頼できるとしても、それが何tokens/secで、どのモデルで、どのくらいの温度・消費電力で達成されたのかが見えない。続報を待つべきだ。

ただ、俺が感じるのは「2019 Mac Proというプラットフォームの再評価が起きている」という空気だ。中古で手に入れて大容量RAMを積み、ローカルLLMのCPU推論機として使う——これは一つのアリな選択肢だと思う。最新Appleシリコンを買う予算がない人、あるいはすでに手元に2019 Mac Proがある人には、試す価値は十分にある。

ただし電力効率と推論速度の両立を求めるなら、正直M2 Ultra以降のAppleシリコンには勝てないと思う。それが現実だ。

買うべきでない/待つべき。 続報の数値が出てから判断しろ。「凄い」だけじゃ買えない。俺は次のアップデート投稿を待つ。

関連リンク