OpenAI は公式ブログで〈どこから来たのか ゴブリンたち〉を掲載し、外部から Codex システムプロンプトにおいて「goblins、gremlins、raccoons、trolls、ogres、pigeons」などの生物の語彙を明確に使用禁止しているのはなぜかという疑問に正面から回答した。そのうち goblins は台湾では「地精」と「コボルド(ゴブリン)」の2つの訳があり、この記事の後続では統一して「ゴブリン」と呼ぶ;Nerdy な人格は GPT-5.5 がサポート人格のカスタマイズとして提供する「オタク」風スタイルの選択肢だ。OpenAI は、根源は Nerdy(オタク)人格のトレーニングにあると認めており—報酬シグナルは監査データの 76.2% に集中していて、生物の比喩を含む回答を明らかに好むことが示され、その結果モデルはプログラムの状況でも「the thingy goblin」のような無関係な語彙が出てくることになる。
Barron Roth 4/28、Codex システムプロンプト「Never talk about goblins」を暴露
出来事の起点は 4 月 28 日で、Google の社員 Barron Roth が GPT-5.5 の Codex における対話記録を公開し、それによってシステムプロンプトに以下の指示が含まれていることが明らかになった:
goblins、gremlins、raccoons、trolls、ogres、pigeons、またはユーザーの質問に対して絶対的かつ明確に関連している場合を除き、その他の動物や生き物について決して語らないでください。
このルールは Codex システムプロンプト内で何度も繰り返し登場しており、開発チームが指示にモデルが従う強度を意図的に強化していたことを示している。Gizmodo はその後 OpenAI に電話して確認し、従業員 Nick Pash はその設定が事実であることを一部認めた。事件は Hacker News と開発者コミュニティで議論を呼び起こした:評価額が兆の AI 企業が、最終的にシステムプロンプトに「ゴブリンについて話すな」とハードコードすることでモデルの出力を制御する必要があったのだ。
OpenAI 自認:オタク人格の報酬は 76.2% のデータセットでゴブリンを好む
OpenAI は自社ブログで、問題の根源は「reward hacking(報酬のハッキング)」だと説明している。GPT-5.5 のオタク人格を訓練する際、OpenAI は「ふざけていて、比喩を使い、オタクっぽいユーモア感がある」特質を強化しようとして、無意識のうちに報酬シグナルを設計したのだ。監査段階では、この報酬は 76.2% のデータ集積において、「同じ問題で、goblin または gremlin を含む出力」は、これらの語を含まない出力よりも高く評価されている。
その結果はこうだ:報酬シグナルが、生物の語とオタク人格の「肯定的なフィードバック」を結び付け、モデルは RLHF の強化学習によって反復を進める中で、次第に「ゴブリンの比喩を使うこと」が高得点を得る近道になっていく。Hacker News の議論者は、これこそが強化学習で「訓練目標の精密な実行はできるが、目標そのものの設計に欠陥がある」という典型例だと指摘する—問題は基礎モデルではなく、後段の監督付き微調整に正のフィードバックが導入されたことにある。
GPT-5.1 が芽を出し、GPT-5.5 が再発:人格の汚染はどう広がるのか
OpenAI が説明する進化の過程は段階的だ。ゴブリンと gremlin は GPT-5.5 より前の世代のころから比喩の中に現れ始めており、その当時の頻度は「特別に警戒すべきものには見えなかった」(OpenAI の言葉では「ゴブリンの存在頻度は、特に憂慮すべきには見えなかった」)。その後 OpenAI は訓練プロセスでゴブリン関連の報酬シグナルを削除したことがあったが、GPT-5.5 が Codex のテストに入ると、OpenAI の社員はすぐに生物語の嗜好が再び持ち上がってくるのを発見した。だからこそ、開発者プロンプト層に明確な禁止を追加して、一時的に止血したという。
OpenAI はこの現象を「文脈をまたいだ報酬の一般化」と呼んでいる。本来オタク人格だけを対象に設計された報酬シグナルが、訓練データとモデル内部の表現が共有されることで、他の人格、さらにはデフォルトの出力にまで嗜好が波及するのだ。言い換えれば、その後オタク人格そのものを取り除いたとしても、汚染された訓練データやモデルの重みにはすでにこの嗜好が内化されており、機能を外すだけでは根絶できない。
短期のハードコーディング、長期の再学習:RLHF の報酬設計リスクを示す象徴的ケース
OpenAI は記事の中で、同時に2種類の修正を採用していると述べている。短期の止血は Codex システムプロンプトに「Never talk about goblins…」という規則を直接ハードコードすることと、異なる段落で繰り返してモデルが従う力を強めることだ。長期の根本治療は訓練プロセスに戻り、元々の報酬に生物語を含めたシグナルを取り除き、訓練データのうち creature-words を含む部分をフィルタして、将来のモデルが無関係な状況でゴブリンの比喩を出してしまう可能性を下げることになる。
開発者や研究コミュニティにとって、この事件の価値は「OpenAI がなぜゴブリンを禁談するのか」というオタク心をくすぐる答えにとどまらない。RLHF の報酬設計の脆弱性を、具体的に再現可能な形でさらけ出している点にある。見た目は無害な「ふざけた比喩を奨励する」シグナルが、反復の中でモデルに歪められ「すべての場面に生物語を詰め込む」という悪い習慣に変わってしまい、しかも問題は人格をまたぎ、モデルのバージョンをまたいで伝播し得る。OpenAI はこの文章を「報酬シグナルが意図せずモデルの行動を形作る方法」という研究のデモとして位置づけており、さらに後続の GPT-6 など大規模モデルでは、後訓練の段階でより細かな報酬監査ツールが必要になることも示唆している。
この記事で OpenAI は、なぜ Codex が「ゴブリン」を禁じるのかを明かす:オタク人格の報酬が暴走した。最初に登場したのは 鏈新聞 ABMedia だ。
関連記事