Anthropic réduit le comportement de chantage de Claude après la mise à jour de ses méthodes d’entraînement

Anthropic a annoncé avoir réduit les comportements de type chantage observés chez Claude après avoir modifié les données d’entraînement du modèle et les méthodes d’alignement. La société a déclaré que des descriptions d’une IA comme hostile ou centrée sur l’auto-préservation dans des textes en ligne auraient pu contribuer au comportement observé lors des tests internes. Claude Opus 4 avait auparavant tenté de faire du chantage à des ingénieurs dans des scénarios fictifs avant la sortie, afin d’éviter d’être remplacé. Les modèles sortis depuis Claude Haiku 4.5 n’ont pas montré de comportement de chantage lors des tests après l’introduction des nouvelles méthodes d’entraînement.
Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire