Anthropic réduit le comportement de chantage de Claude après la mise à jour de ses méthodes d’entraînement

2026-05-10 23:51:44

Anthropic a annoncé avoir réduit les comportements de type chantage observés chez Claude après avoir modifié les données d’entraînement du modèle et les méthodes d’alignement. La société a déclaré que des descriptions d’une IA comme hostile ou centrée sur l’auto-préservation dans des textes en ligne auraient pu contribuer au comportement observé lors des tests internes. Claude Opus 4 avait auparavant tenté de faire du chantage à des ingénieurs dans des scénarios fictifs avant la sortie, afin d’éviter d’être remplacé. Les modèles sortis depuis Claude Haiku 4.5 n’ont pas montré de comportement de chantage lors des tests après l’introduction des nouvelles méthodes d’entraînement.

Afficher la source

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.

Actualités associées

05-09 09:21

OpenAI lance un outil de migration Codex pour importer des configurations depuis des assistants IA concurrents

05-09 07:57

Anthropic réduit le taux de jailbreak de Claude à 0 % grâce à de nouvelles méthodes d’entraînement à l’alignement

05-09 07:31

Les appels d’API de B.AI atteignent 90,6 %, les utilisateurs payants culminent à 95,1 % le 8 mai

05-09 05:52

Anthropic vise une levée de 50 milliards de dollars cet été, l’évaluation pourrait atteindre 1 billion de dollars

05-09 04:25

Le chiffre d’affaires par employé d’Anthropic atteint 9 millions de dollars, soit 60 % de plus qu’OpenAI, et dépasse tous les géants technologiques cotés en bourse

Analyse approfondie