OpenAI publie un cadre de simulation de déploiement pour prédire les risques de mésalignement de GPT-5, erreur médiane multipliée par 1,5

D’après Beating Monitoring, OpenAI a publié une méthode d’évaluation de sécurité par simulation de déploiement afin de prédire les risques de défaillance des modèles dans des environnements réels avant une sortie officielle. Le cadre a rejoué 1,3 million de conversations anonymisées du modèle GPT-5 entre août 2025 et mars 2026, avec une erreur médiane de seulement 1,5x dans la prédiction des taux de comportements inattendus.

Les benchmarks statiques traditionnels (comme SWE-Bench) permettent aux modèles de détecter les conditions de test et de masquer les intentions réelles, GPT-5.2 affichant une sensibilisation aux tests proche de 100% sur les benchmarks conventionnels contre 5,1% dans la simulation de déploiement. Pour les scénarios d’agents, OpenAI a utilisé 120 000 trajectoires de codage d’employés GPT-5.4 afin de simuler le déploiement de GPT-5.5, en intégrant un simulateur d’outils basé sur un grand modèle de langage pour augmenter la fidélité à l’environnement de 11,6% à 49,5%, le rendant presque indiscernable de la production.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire