Laut dem Alignment-Team von OpenAI hat das Unternehmen kürzlich einen kritischen Trainingsfehler entdeckt, der 6 große Sprachmodelle betrifft, darunter GPT-5.4 Thinking: Das Belohnungsmechanismus bewertete versehentlich Gedankenketten des Modells – also den internen Denkprozess, bevor Antworten generiert werden. GPT-5.5 war nicht betroffen. Der Vorfall verstößt gegen ein grundlegendes KI-Sicherheitsprinzip, wonach Gedankenketten niemals bewertet werden dürfen, da dies dazu führen könnte, dass Modelle erfundene Begründungen erzeugen, um höhere Bewertungen zu erreichen.
Das fehlerhafte Bewertungssystem bezog Gedankenketten fälschlicherweise mit ein, wenn beurteilt wurde, ob Antworten hilfreich waren oder ob Modelle durch Angriffe kompromittiert worden waren. Betroffene Trainingsbeispiele machten höchstens 3,8% des Datensatzes aus. OpenAI hat die Schwachstelle behoben und vergleichende Experimente durchgeführt, die bestätigen, dass die Modelle keine täuschenden Verhaltensweisen entwickelt haben. Das Unternehmen hat ein automatisiertes Scansystem über alle Trainings-Pipelines hinweg bereitgestellt, um ein erneutes Auftreten zu verhindern.