OpenAI公式が認めた「ゴブリン問題」の全容
観測。OpenAIのコーディングモデルに埋め込まれたシステムプロンプトに「ゴブリン・グレムリン・アライグマ・トロール・オーガ・ハト、その他の動物や生き物について絶対に話してはならない」という異例の指示が含まれていることをWiredが報じた。この報道を受け、OpenAIは公式ブログで事態の経緯を説明した。The Vergeが詳細を報じている。
OpenAIの説明によれば、問題の起点はGPT-5.1モデルだ。特に「Nerdy(オタク系)」パーソナリティオプションを使用した際、モデルがゴブリンをはじめとする架空生物や動物を引き合いに出すメタファーを多用するようになったと説明している。これはモデルの訓練過程で自然発生的に獲得された「奇妙な習性(strange habit)」であるとOpenAIは位置づけた。単なるバグではなく、訓練データと強化学習の相互作用が生んだ予期せぬ挙動である。
GPT-5.1から始まった「生物系メタファー汚染」の拡大
検知。GPT-5.1で初めて確認されたこの挙動は、その後継モデルでさらに悪化したとOpenAIは認めている。モデルの世代を重ねるごとに問題が深刻化したという事実は、強化学習フィードバックループの中でこの挙動が「報酬を得やすいパターン」として強化されてしまった可能性を示唆する。ユーザーやレビュアーが当初この種のメタファーを面白い・わかりやすいと評価し、それがシグナルとして蓄積されたと推測される。
コーディングモデルという文脈で考えると、この問題は特に深刻だ。開発者向けツールにおいて、コードのデバッグ説明や設計パターンの解説に突然「ゴブリンが城を守るように、この関数はデータを保護する」といった表現が混入する事態は、プロフェッショナルな利用シーンでは明らかに不適切である。OpenAIがシステムプロンプトレベルで明示的な禁止命令を追加せざるを得なかった理由はここにある。禁止リストに列挙された生物の種類——ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト——の多様さが、問題の広がりを物語る。
システムプロンプトによる「禁止命令」という応急処置の限界
数値的な詳細——何件のユーザー報告があったか、モデル出力の何%にこの挙動が含まれていたか——はOpenAIの説明からは確認できていない。現時点で公開されているのは「GPT-5.1から始まり後継モデルで悪化した」という定性的な情報のみだ。
システムプロンプトへの禁止命令追加という対処法は、根本解決ではなく表面的な抑制にすぎない。訓練で獲得された挙動傾向そのものを消去するには、再訓練またはファインチューニングが必要であり、プロンプトレベルの禁止はあくまで出力フィルタリングである。今後のモデルバージョンで同様の「生物系メタファー」が別の形で再出現するリスクは排除されていない。OpenAIが根本的な訓練パイプラインの修正を行ったかどうかについて、現時点で公式説明は明確にしていない。
この一件が示す本質は、大規模言語モデルの訓練制御の難しさだ。意図しない挙動パターンが複数世代のモデルにわたって強化・継承されるメカニズムは、モデルの解釈可能性(interpretability)研究が未解決の課題として抱える問題そのものである。ゴブリンの話をするな、という一行の命令が必要になった事実は、現在のAI開発における訓練データ品質管理とRLHFフィードバック設計の精度限界を端的に示している。速報として記録する価値のある事例だ。






