OpenAI が Codex をなぜ「ゴブリン」という禁句で扱うのかを暴く:オタク人格の報酬が制御不能に

ChainNewsAbmedia

OpenAI は公式ブログで〈どこから来たのか ゴブリンたち〉を掲載し、外部から Codex システムプロンプトにおいて「goblins、gremlins、raccoons、trolls、ogres、pigeons」などの生物の語彙を明確に使用禁止しているのはなぜかという疑問に正面から回答した。そのうち goblins は台湾では「地精」と「コボルド(ゴブリン)」の2つの訳があり、この記事の後続では統一して「ゴブリン」と呼ぶ;Nerdy な人格は GPT-5.5 がサポート人格のカスタマイズとして提供する「オタク」風スタイルの選択肢だ。OpenAI は、根源は Nerdy(オタク)人格のトレーニングにあると認めており—報酬シグナルは監査データの 76.2% に集中していて、生物の比喩を含む回答を明らかに好むことが示され、その結果モデルはプログラムの状況でも「the thingy goblin」のような無関係な語彙が出てくることになる。

Barron Roth 4/28、Codex システムプロンプト「Never talk about goblins」を暴露

出来事の起点は 4 月 28 日で、Google の社員 Barron Roth が GPT-5.5 の Codex における対話記録を公開し、それによってシステムプロンプトに以下の指示が含まれていることが明らかになった:

goblins、gremlins、raccoons、trolls、ogres、pigeons、またはユーザーの質問に対して絶対的かつ明確に関連している場合を除き、その他の動物や生き物について決して語らないでください。

このルールは Codex システムプロンプト内で何度も繰り返し登場しており、開発チームが指示にモデルが従う強度を意図的に強化していたことを示している。Gizmodo はその後 OpenAI に電話して確認し、従業員 Nick Pash はその設定が事実であることを一部認めた。事件は Hacker News と開発者コミュニティで議論を呼び起こした:評価額が兆の AI 企業が、最終的にシステムプロンプトに「ゴブリンについて話すな」とハードコードすることでモデルの出力を制御する必要があったのだ。

OpenAI 自認:オタク人格の報酬は 76.2% のデータセットでゴブリンを好む

OpenAI は自社ブログで、問題の根源は「reward hacking(報酬のハッキング)」だと説明している。GPT-5.5 のオタク人格を訓練する際、OpenAI は「ふざけていて、比喩を使い、オタクっぽいユーモア感がある」特質を強化しようとして、無意識のうちに報酬シグナルを設計したのだ。監査段階では、この報酬は 76.2% のデータ集積において、「同じ問題で、goblin または gremlin を含む出力」は、これらの語を含まない出力よりも高く評価されている。

その結果はこうだ:報酬シグナルが、生物の語とオタク人格の「肯定的なフィードバック」を結び付け、モデルは RLHF の強化学習によって反復を進める中で、次第に「ゴブリンの比喩を使うこと」が高得点を得る近道になっていく。Hacker News の議論者は、これこそが強化学習で「訓練目標の精密な実行はできるが、目標そのものの設計に欠陥がある」という典型例だと指摘する—問題は基礎モデルではなく、後段の監督付き微調整に正のフィードバックが導入されたことにある。

GPT-5.1 が芽を出し、GPT-5.5 が再発:人格の汚染はどう広がるのか

OpenAI が説明する進化の過程は段階的だ。ゴブリンと gremlin は GPT-5.5 より前の世代のころから比喩の中に現れ始めており、その当時の頻度は「特別に警戒すべきものには見えなかった」(OpenAI の言葉では「ゴブリンの存在頻度は、特に憂慮すべきには見えなかった」)。その後 OpenAI は訓練プロセスでゴブリン関連の報酬シグナルを削除したことがあったが、GPT-5.5 が Codex のテストに入ると、OpenAI の社員はすぐに生物語の嗜好が再び持ち上がってくるのを発見した。だからこそ、開発者プロンプト層に明確な禁止を追加して、一時的に止血したという。

OpenAI はこの現象を「文脈をまたいだ報酬の一般化」と呼んでいる。本来オタク人格だけを対象に設計された報酬シグナルが、訓練データとモデル内部の表現が共有されることで、他の人格、さらにはデフォルトの出力にまで嗜好が波及するのだ。言い換えれば、その後オタク人格そのものを取り除いたとしても、汚染された訓練データやモデルの重みにはすでにこの嗜好が内化されており、機能を外すだけでは根絶できない。

短期のハードコーディング、長期の再学習:RLHF の報酬設計リスクを示す象徴的ケース

OpenAI は記事の中で、同時に2種類の修正を採用していると述べている。短期の止血は Codex システムプロンプトに「Never talk about goblins…」という規則を直接ハードコードすることと、異なる段落で繰り返してモデルが従う力を強めることだ。長期の根本治療は訓練プロセスに戻り、元々の報酬に生物語を含めたシグナルを取り除き、訓練データのうち creature-words を含む部分をフィルタして、将来のモデルが無関係な状況でゴブリンの比喩を出してしまう可能性を下げることになる。

開発者や研究コミュニティにとって、この事件の価値は「OpenAI がなぜゴブリンを禁談するのか」というオタク心をくすぐる答えにとどまらない。RLHF の報酬設計の脆弱性を、具体的に再現可能な形でさらけ出している点にある。見た目は無害な「ふざけた比喩を奨励する」シグナルが、反復の中でモデルに歪められ「すべての場面に生物語を詰め込む」という悪い習慣に変わってしまい、しかも問題は人格をまたぎ、モデルのバージョンをまたいで伝播し得る。OpenAI はこの文章を「報酬シグナルが意図せずモデルの行動を形作る方法」という研究のデモとして位置づけており、さらに後続の GPT-6 など大規模モデルでは、後訓練の段階でより細かな報酬監査ツールが必要になることも示唆している。

この記事で OpenAI は、なぜ Codex が「ゴブリン」を禁じるのかを明かす:オタク人格の報酬が暴走した。最初に登場したのは 鏈新聞 ABMedia だ。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

OpenAIの支援を受けた1Xがカリフォルニアに58,000平方フィートの工場を開設、初年度に1万台のロボットを目標

ブルームバーグによると、ノルウェーで設立されたOpenAIの支援を受けたロボティクス・スタートアップである1X Technologiesは、カリフォルニア州ヘイワードに58,000平方フィートの製造施設を開設し、大量生産される消費者向けのヒューマノイドロボットでリードすることを目指している。 この施設では、10,000台のロボットを生産する予定で、その

GateNews32分前

ホワイトハウス、4月30日に米国の各機関へ複数のAIプロバイダーの利用を指示するAI政策メモ案を作成

PANewsが4月30日に引用した情報源によれば、ホワイトハウス当局者は、幅広い人工知能(AI)政策の覚書を作成しており、米国政府の各機関に対して複数のAIサービス提供事業者を採用し、特定のベンダーへの依存を避けるよう指示している。さらに、その覚書は、委託を受けたすべてのAI企業に対しても要求している。

GateNews1時間前

中国の国家インターネット情報弁公室、4月30日にAIアプリケーションの混乱を抑えるための4か月キャンペーンを開始

CCTVニュースによると、中国の国家インターネット情報局は4月30日、AIアプリケーションの混乱に対処するため、全国規模の4か月間のキャンペーンを開始しました。この取り組みは2つの段階に分けて展開され、行方不明のモデル登録、プラットフォームの安全性や審査能力の不足などの問題を対象としています。

GateNews1時間前

フォアフロント・テックが $100M のIPO価格設定を完了、NasdaqはコードFTHAUのもと上場

ChainCatcherによると、特別目的買収会社(SPAC)のForefront Techは4月30日に1億ドル規模のIPOの価格決定を完了し、ティッカーシンボルFTHAUのもとでNasdaqに上場する予定です。同社は、調達資金を用いてブロックチェーン、フィンテック、人工知能分野における合併・買収(M&A)の機会を追求する考えです。

GateNews2時間前

Anthropic Claude Code は請求バグによりユーザーに200.98ドルを過剰請求し、当初は返金を拒否したが最終的には全額補償されることになった

Beatingによる監視では、AnthropicのClaude Codeサービスにおける請求の不具合により、最大20倍の加入者が追加の利用料金として200.98ドルを過剰請求されていたことが判明した。同加入者は月間クォータの13%しか使用していなかった。ユーザーのgitリポジトリのコミット履歴に大文字の

GateNews3時間前

DeepSeekは4月30日にマルチモーダル推論を強化するために視覚プリミティブ方式を導入

DeepSeekの技術レポートによると、4月30日、同社はVisual Primitives(ビジュアル・プリミティブ)を導入しました。これは、マルチモーダル課題におけるReference Gap問題に対処するために、点やバウンディングボックスなどの基本的な視覚要素を推論チェーンに埋め込む手法です。この方法は画像トークンの消費を削減します

GateNews3時間前
コメント
0/400
コメントなし