設計目標の100万分の1のデータで自律研究ループを検証

速報:Karpathy自律研究フレームワーク、3300万トークンの公共交通データで14%改善を達成(記事内画像)

速報。米国の交通業界従事者が、KarpathyのautoresearchフレームワークをフォークしてGPT-2 XLではなく80Mパラメータのモデルをスクラッチから訓練し、その結果をr/MachineLearningに投稿した。データ規模は約3300万トークン。交通量分析・列車計画・規制Q&Aペアで構成される業界特化コーパスだ。autoresearchの設計・検証対象はFineWebという事実上無限のウェブスケールテキストであり、今回の実験データはその設計目標より約6桁(100万倍)小さい。それでも結果は出た。詳細は元ソースが報じている。

autoresearchの中核メカニズムは3点だ。①LLMエージェントが単一の訓練スクリプトを自律編集、②1実験あたり5分の訓練時間制限、③単一スカラー指標(パープレキシティ)によるpass/failラチェット。エージェントが改善を確認すればコミット、悪化すればリバート。gitがトラッカーとして機能する。このシンプルな構造が、小規模・特化データでも機能するかどうかが本実験の核心だった。

14%改善の内訳と「人間が提案しなかった」発見

実験の主要問いは2つだった。第1に「autoresearchは設計目標より6桁小さいコーパスで機能するか」、第2に「エージェントが人間では提案しなかった改善を発見するか」だ。結果として、パープレキシティは14%改善した。数値として有意な改善である。

重要なのは方法論の検証が目的であり、デプロイ可能なチャットボット生成が目的ではない点だ。自律一晩実験・単一スカラーラチェット・gitトラッキングという3点セットが、小規模・特化データ環境でも再現性を持つかを確認することがゴールだった。実験者はGPT-2 XLのファインチューニングプロジェクトとは別プロジェクトとして立ち上げた。autoresearchはファインチューニングではなくスクラッチ事前訓練向けに設計されているためだ。既存プロジェクトへの後付けを避け、設計意図に沿った形で検証を行った判断は妥当である。

ハードウェア制約の詳細はソース抜粋に含まれていないが、5分という実験時間制限が課せられている点から、コンシューマーグレードまたは中規模のGPU環境での実施と推測される。その制約下での14%改善は、フレームワークのデータ効率の高さを示唆する。

再現ノートが示す実務的含意

本報告の価値は数値だけではない。「どこで失敗したか」「何が興味深いか」「次に何を学ぶべきか」という問いを実験者自身が公開の場に投げかけている点だ。これは再現性・透明性を重視するML研究コミュニティの規範に沿った行動である。

autoresearchのwikiを精査した上でフォークし、コーパスを差し替えて実験する手順は、同フレームワークを自社・自組織の特化データに適用したい実務者にとって参考になる。特に公共交通・物流・インフラ等のドメインでは、ウェブスケールの汎用コーパスより小規模な業界特化データの方が現実的な選択肢だ。autoresearchが6桁小さいデータでも機能するという今回の報告は、そうした実務者への直接的なシグナルになる。

規制Q&Aペアをコーパスに含めている点も注目に値する。交通規制は地域・時期によって変化する。特化モデルの訓練データとして規制文書を組み込む設計は、ハルシネーション抑制の観点から合理的だ。ただし本実験はデプロイを目的としていないため、実際の規制準拠性については別途検証が必要である。

結論:スケールより構造、自律ループの汎用性が立証された

今回の実験が示すのは一点だ。「autoresearchの価値はデータ規模への依存度が低い」という事実である。LLMエージェントによる自律編集・5分制限・単一スカラーラチェット・gitトラッキングという構造自体が、スケールに依存しない改善エンジンとして機能する。14%という数値はその証左だ。

私が注目するのは、この実験が「業界実務者がMLフレームワークを自力で検証・報告した」という点でもある。研究機関でも大手テック企業でもない。それでも再現性のある数値を出し、コミュニティに問いを投げた。autoresearchのような自律実験フレームワークが、ML専業でない実務者の研究参入障壁を下げる可能性を示している。次のフェーズとして、エージェントが「人間では提案しなかった改善」として何を発見したかの詳細公開を待ちたい。