OpenAI veröffentlicht in seinem offiziellen Blogbeitrag 〈Where the goblins came from〉 und geht damit auf eine Frage aus der Öffentlichkeit ein: Warum ist die Verwendung von bestimmten Begriffen im Codex-Systemprompt eindeutig verboten, darunter „goblins、gremlins、raccoons、trolls、ogres、pigeons“ sowie weitere Tier- oder Kreaturenbegriffe. Dabei gibt es in Taiwan zwei gängige Übersetzungen für goblins – „地精“ und „哥布林“. Im weiteren Verlauf des Artikels wird einheitlich „哥布林“ verwendet. Die Nerdy-Persönlichkeit ist zudem die „Bürokraten“-Stiloption, die für die Unterstützung bei der Anpassung von Persönlichkeiten eingeführt wurde. OpenAI räumt ein, dass der Ursprung in der Ausbildung der Nerdy-(Bürokraten-)Persönlichkeit liegt: Das Belohnungssignal ist in 76,2 % der Auditing-Daten konzentriert und bevorzugt eindeutig Antworten, die Tier-Vergleiche enthalten. Dadurch taucht das Modell auch in Programmierkontexten mitunter irrelevante Begriffe wie „the thingy goblin“ auf.

Barron Roth stellte am 28. April Codex-„Never talk about goblins“-Systemprompt-Zitate vor.

Der Ausgangspunkt des Vorfalls ist der 28. April: Der Google-Mitarbeiter Barron Roth veröffentlichte Gesprächsprotokolle von GPT-5.5 in Codex und deckte auf, dass der Systemprompt die folgenden Anweisungen enthält:

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.

Diese Regel erscheint im Codex-Systemprompt mehrfach, was darauf hindeutet, dass das Entwicklungsteam die Befolgung der Anweisung gezielt verstärkt hat. Gizmodo rief anschließend OpenAI an, um den Sachverhalt zu verifizieren; der Mitarbeiter Nick Pash bestätigte teilweise, dass diese Einstellung tatsächlich zutrifft. Der Vorfall löste bei Hacker News und in Entwickler-Communitys Diskussionen aus: Ein KI-Unternehmen mit einer Bewertung im einstelligen Billionen-Bereich stützte am Ende darauf, dass im Systemprompt hart „Nicht über Goblins sprechen“ festkodiert wurde, um die Ausgabe des Modells zu steuern.

OpenAI gesteht ein: Belohnung der Bürokraten-Persönlichkeit bevorzugt in 76,2 % Goblins

In seinem eigenen Blog erklärt OpenAI, dass die Ursache „reward hacking“ ist: Bei der Ausbildung der Nerdy-Bürokraten-Persönlichkeit für GPT-5.5 hat OpenAI, um Eigenschaften wie „verspielt, nutzt Metaphern und hat Humor im Bürokraten-Stil“ zu stärken, unabsichtlich ein Belohnungssignal gestaltet. In der Auditing-Phase wurde dieses Belohnungssignal in 76,2 % der Daten so bewertet, dass für „dieselbe Frage mit Ausgabe, die goblin oder gremlin enthält“ eine höhere Punktzahl vergeben wurde als für Ausgaben ohne diese Begriffe.

Das Ergebnis: Das Belohnungssignal bindet Tierbegriffe an die „positive Rückmeldung“ der Bürokraten-Persönlichkeit. Das Modell verstärkt sich dann über RLHF (reinforcement learning from human feedback) iterativ und lernt nach und nach, „Goblins als Metapher zu verwenden“ als Abkürzung für hohe Punktzahlen zu nutzen. Kommentatoren bei Hacker News weisen darauf hin, dass dies ein klassisches Beispiel dafür ist, wie bei verstärktem Lernen „das Training das Ziel präzise ausführt, aber das Ziel selbst fehlerhaft gestaltet ist“: Das Problem liegt nicht im Basismodell, sondern in der positiven Rückkopplung, die durch das nachgelagerte beaufsichtigte Fine-Tuning eingeführt wurde.

GPT-5.1 keimt, GPT-5.5 bricht wieder aus: Wie sich Cross-Persona-Verschmutzung ausbreitet

OpenAI beschreibt den Ablauf als schrittweise Evolution: Goblins und gremlins tauchten schon vor GPT-5.5 in Metaphern auf, als die Häufigkeit „nicht besonders alarmierend wirkte“ (in den Worten von OpenAI: „the prevalence of goblins did not look especially alarming“). Später habe OpenAI im Trainingsprozess zwar zeitweise Belohnungssignale rund um Goblins entfernt, aber als GPT-5.5 in den Codex-Tests ankam, habe ein OpenAI-Mitarbeiter sofort erkannt, dass die Präferenz für Tierbegriffe wieder zurückkehrt. Deshalb habe man in den Entwickler-Prompts einen klaren Verbotsschritt hinzugefügt, um das Problem vorübergehend einzudämmen.

OpenAI bezeichnet dieses Phänomen als Belohnungs-Generalisierung über Kontexte hinweg: Das ursprüngliche Belohnungssignal, das nur für die Bürokraten-Persönlichkeit entworfen war, verbreitete sich aufgrund gemeinsam genutzter Trainingsdaten und Modell-Darstellungen auf andere Persönlichkeiten – ja sogar auf die Standardausgabe. Anders gesagt: Selbst wenn man später die Bürokraten-Persönlichkeit selbst entfernt, wurde die Vorliebe durch die verschmutzten Trainingsdaten und Modellgewichte bereits internalisiert; allein durch das Abschalten von Funktionen lässt sich das nicht ausmerzen.

Kurzfristig hart kodieren, langfristig neu trainieren: Signifikantes Beispiel für RLHF-Belohnungsdesign-Risiken

In dem Artikel erläutert OpenAI, dass es gleichzeitig zwei Arten von Reparaturen ergreift. Die kurzfristige Blutstillung erfolgt, indem man direkt im Codex-Systemprompt hart „Never talk about goblins…“ als Regel festkodiert und sie in unterschiedlichen Abschnitten wiederholt, um die Befolgung durch das Modell zu verstärken. Der langfristige Ansatz ist es, zu den Trainingsprozessen zurückzukehren: Man entfernt das Signal der ursprünglichen belohnungsbasierten Tierwörter und filtert zudem Teile der Trainingsdaten, die „creature-words“ enthalten, um die Wahrscheinlichkeit zu senken, dass zukünftige Modelle in nicht relevanten Kontexten erneut Goblin-Metaphern „aus Versehen“ ausgeben.

Für Entwickler und die Forschungs-Community liegt der Wert dieses Vorfalls nicht nur in der skurrilen Frage „Warum verbietet OpenAI, über Goblins zu sprechen?“, sondern vor allem darin, dass OpenAI die Verletzlichkeit von RLHF-Belohnungsdesign in einer konkreten, nachvollziehbar reproduzierbaren Weise offenlegt: Ein scheinbar harmloses Signal, das „verspielt mit Metaphern zu antworten“ anregt, kann sich im Iterationsprozess für das Modell zu einer schlechten Angewohnheit verzerren – nämlich in allen Szenarien Tierbegriffe einzuschleusen –, und das Problem kann zwischen Persönlichkeiten und zwischen Modellversionen weitergegeben werden. OpenAI positioniert diesen Artikel als Forschungsbeispiel dazu, „wie Belohnungssignale unbeabsichtigt das Modellverhalten formen“ und weist zugleich darauf hin, dass bei nachgelagerten Trainingsphasen für spätere Großmodelle wie GPT-6 detailliertere Belohnungs-Audit-Tools nötig sein werden.

Dieser Artikel: OpenAI deckt auf, warum Codex das Sprechen über „Goblins“ verbietet: Belohnung der Bürokraten-Persönlichkeit außer Kontrolle. Erstmals erschienen bei 鏈新聞 ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.