Das Belohnungssystem von OpenAI bewertet versehentlich Denk-Ketten auf 6 Modellen, darunter GPT-5.4

Laut dem Alignment-Team von OpenAI hat das Unternehmen kürzlich einen kritischen Trainingsfehler entdeckt, der 6 große Sprachmodelle betrifft, darunter GPT-5.4 Thinking: Das Belohnungsmechanismus bewertete versehentlich Gedankenketten des Modells – also den internen Denkprozess, bevor Antworten generiert werden. GPT-5.5 war nicht betroffen. Der Vorfall verstößt gegen ein grundlegendes KI-Sicherheitsprinzip, wonach Gedankenketten niemals bewertet werden dürfen, da dies dazu führen könnte, dass Modelle erfundene Begründungen erzeugen, um höhere Bewertungen zu erreichen.

Das fehlerhafte Bewertungssystem bezog Gedankenketten fälschlicherweise mit ein, wenn beurteilt wurde, ob Antworten hilfreich waren oder ob Modelle durch Angriffe kompromittiert worden waren. Betroffene Trainingsbeispiele machten höchstens 3,8% des Datensatzes aus. OpenAI hat die Schwachstelle behoben und vergleichende Experimente durchgeführt, die bestätigen, dass die Modelle keine täuschenden Verhaltensweisen entwickelt haben. Das Unternehmen hat ein automatisiertes Scansystem über alle Trainings-Pipelines hinweg bereitgestellt, um ein erneutes Auftreten zu verhindern.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare