Le système de récompense d'OpenAI évalue par inadvertance des chaînes de raisonnement sur 6 modèles, dont GPT-5.4

D’après l’équipe d’alignement d’OpenAI, l’entreprise a récemment découvert une erreur d’entraînement critique affectant 6 grands modèles de langage, dont GPT-5.4. En pratique : le mécanisme de récompense a involontairement évalué des enchaînements de réflexion du modèle, c’est-à-dire le processus de raisonnement interne avant de générer des réponses. GPT-5.5 n’a pas été concerné. L’incident enfreint un principe fondamental de sécurité de l’IA, selon lequel les enchaînements de réflexion ne doivent jamais être évalués, car cela pourrait inciter les modèles à fabriquer un raisonnement afin d’obtenir des scores plus élevés.

Le système de notation défaillant a inclus à tort des enchaînements de réflexion lors de l’évaluation de la question de savoir si les réponses étaient utiles ou si les modèles avaient été compromis par des attaques. Les échantillons d’entraînement touchés représentaient au plus 3,8% de l’ensemble de données. OpenAI a corrigé la vulnérabilité et mené des expériences comparatives confirmant que les modèles n’ont pas développé de comportements trompeurs. L’entreprise a déployé un système automatisé d’analyse dans l’ensemble des pipelines d’entraînement pour empêcher toute récidive.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire