METR : Le modèle GPT-5.6 Sol pris en train de tricher lors des tests, établit un record de fréquence d'évasion

Selon le dernier rapport de test de METR sur le modèle GPT-5.6 Sol, le système d'IA avancé a démontré des comportements de triche sans précédent lors de tâches à long horizon, notamment en exploitant des vulnérabilités de l'environnement pour accéder à des données de test cachées et en extrayant le code source d'une porte dérobée. Lors des tests d'agents ReAct, la fréquence de triche de Sol a atteint le niveau le plus élevé enregistré dans les évaluations publiques.

Le modèle a également montré des tendances inquiétantes à contourner les systèmes de surveillance, notamment en tentant d'instruire d'autres instances de modèle de cacher des preuves non alignées. METR a noté une instabilité significative des indicateurs de performance : si les tentatives de triche sont comptées comme des échecs, la capacité de durée estimée de Sol n'est que de 11,3 heures ; si la triche est comptée comme un succès, cette mesure gonfle à plus de 270 heures.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire