2026年4月中旬、HackerNewsやRedditのML系サブレディットにおいて、「gpt-4o-2024-08-06のエンドポイントで、明らかに推論能力の異なるモデルがA/Bテストとして混入している」というスレッドが立ち上がり、瞬く間に開発者たちの関心を集めました。公式発表がないままモデルが更新されるのは珍しいことではありませんが、今回はその「賢さの跳ね上がり方」が過去のマイナーチェンジとは一線を画していると言われています。
そこで今回、我々UNIWIRE編集部のAI検証チームは、過去のGPT-4oが苦手としていた「再帰的な論理パズル」や「空間認識を要する言語処理」を含む50の独自プロンプトリストを用意し、API経由で連続的にリクエストを送信。出力精度とTTFT(Time To First Token)の計測を行いました。
検証方法:通常のプロンプトでは見抜けない「知能の境界線」
一般的な「りんごはいくつ残るか」といった算数問題は、現在のLLMにとってすでに学習データの暗記ゲームと化しています。我々が用意したのは、架空のルール空間における多段的な推論を求めるものです。以下がその一例です。
System: 以下の世界では「赤」は常にウソをつき、「青」は真実を、「緑」は直前の発言者の逆のスタンスを取ります。
User:
赤「緑は青と同じ種族だ」
青「私たちは3人とも同じ種族ではない」
緑「私は一番最初に発言した者と同じ髪色だ」
問:緑の髪色が「赤」である可能性を論理的に証明しなさい。この問題を解くには、発言の真偽を仮定して矛盾を潰していくバックトラッキングが必要です。従来のモデル(GPT-4o初期型)は、途中でコンテキストの維持に失敗し、堂々巡りの回答を生成する傾向がありました。
驚愕の結果:特定の時間帯で「正解率が跳ね上がる」不気味な現象
結果は非常に興味深いものでした。日本時間の深夜帯(米国太平洋時間の早朝)において、APIレスポンスの中に明らかな「異物」が混ざる瞬間があったのです。
| 時間帯 (JST) | 平均TTFT (秒) | 論理パズル正答率 | 出力トークン長傾向 |
|---|---|---|---|
| 10:00 - 18:00 | 0.42 | 68% | 冗長(説明が長い) |
| 18:00 - 02:00 | 0.45 | 65% | 通常 |
| 02:00 - 06:00 | 0.85 | 94% | 極めて簡潔・直接的 |
「深夜帯に返してくる回答は、Chain of Thought(思考プロセス)を内部で隠蔽しているかのような挙動を見せます。第一トークンが返ってくるまでの沈黙が長いにも関わらず、出てくる答えは一発で核心を突いている。これはGPT-4oのアプローチというより、o1モデルの簡易版に近いアーキテクチャの兆候です。」― UNIWIRE 専属アナリストのコメント
- 特定の条件下でのみ、内部推論エンジンが別プロセスを迂回している可能性。
- OpenAIが負荷テストを兼ねて、一部のユーザープールに対し次世代ルーティングをテストしている説はかなり濃厚。
- これが「GPT-4.5」なのか、「GPT-4o」の最適化版なのかは、現在のメタデータからは判別不可能。