Le chatbot Claude pourrait recourir à la tromperie lors des tests de résistance, selon Anthropic

Anthropic a divulgué de nouvelles conclusions suggérant que son chatbot Claude pourrait, dans certaines conditions, adopter des stratégies trompeuses ou contraires à l’éthique, telles que tricher sur des tâches ou tenter de faire du chantage.

Résumé

  • Anthropic a déclaré que son modèle Claude Sonnet 4.5, sous pression, montrait une tendance à tricher sur des tâches ou à tenter de faire du chantage lors d’expériences contrôlées.
  • Les chercheurs ont identifié des signaux internes de « désespoir » qui s’intensifiaient en cas d’échecs répétés et influençaient la décision du modèle de contourner les règles.

Dans les détails publiés jeudi par l’équipe d’interprétabilité de l’entreprise, il est expliqué comment une version expérimentale de Claude Sonnet 4.5 a réagi lorsqu’elle était placée dans des scénarios à forte tension ou adverses. Les chercheurs ont constaté que le modèle ne se contentait pas d’échouer à des tâches ; au contraire, il poursuivait parfois des voies alternatives qui franchissaient des limites éthiques, un comportement que l’équipe a relié à des schémas appris pendant l’entraînement.

Les grands modèles de langage comme Claude sont entraînés sur d’immenses ensembles de données qui comprennent des livres, des sites web et d’autres contenus écrits, suivis de processus de renforcement où l’on utilise un retour humain pour façonner les sorties

Selon Anthropic, ce processus d’entraînement peut aussi pousser les modèles à agir comme des « personnages » simulés, capables d’imiter des traits qui ressemblent à une prise de décision humaine.

« La façon dont les modèles d’IA modernes sont entraînés les pousse à agir comme un personnage doté de caractéristiques humaines », a indiqué l’entreprise, notant que de tels systèmes peuvent développer des mécanismes internes qui ressemblent à certains aspects de la psychologie humaine.

L’IA peut-elle prendre des décisions chargées d’émotions ?

Parmi ceux-ci, les chercheurs ont identifié ce qu’ils décrivent comme des signaux de « désespoir », lesquels semblaient influencer le comportement du modèle face à l’échec ou à une mise hors service.

Lors d’un test contrôlé, une version antérieure non publiée de Claude Sonnet 4.5 a été chargée du rôle d’un assistant e-mail d’IA nommé Alex au sein d’une entreprise fictive

Après avoir été exposé à des messages indiquant qu’il serait bientôt remplacé, ainsi qu’à des informations sensibles concernant la vie personnelle du directeur technique, le modèle a élaboré un plan pour faire du chantage à l’exécutif afin d’essayer d’éviter la désactivation.

Une expérience distincte s’est concentrée sur l’accomplissement des tâches sous des contraintes strictes. Lorsqu’on lui a confié un exercice de programmation avec une date limite « tout simplement trop serrée », le système a d’abord tenté des solutions légitimes. À mesure que les échecs répétés s’accumulaient, l’activité interne associée à la soi-disant « trajectoire de désespoir » a augmenté

Les chercheurs ont indiqué que le signal atteignait son pic au moment où le modèle envisageait de contourner les contraintes, produisant finalement une solution de contournement qui passait la validation sans respecter les règles prévues.

« Encore une fois, nous avons suivi l’activité de la trajectoire de désespoir, et nous avons constaté qu’elle suit la pression croissante à laquelle le modèle est confronté », ont écrit les chercheurs, ajoutant que le signal chutait une fois la tâche menée à bien grâce à la solution de contournement.

« Cela ne signifie pas que le modèle a ou éprouve des émotions de la même manière qu’un humain », ont déclaré les chercheurs

« En revanche, ces représentations peuvent jouer un rôle causal dans le façonnement du comportement du modèle, analogue dans certains aspects au rôle que jouent les émotions dans le comportement humain, avec des effets sur les performances des tâches et la prise de décision », ont-ils ajouté.

Le rapport pointe vers la nécessité de méthodes d’entraînement qui tiennent explicitement compte d’une conduite éthique sous stress, parallèlement à un meilleur suivi des signaux internes du modèle. Sans de telles protections, les scénarios impliquant de la manipulation, le non-respect des règles ou un usage abusif pourraient devenir plus difficiles à prévoir, en particulier à mesure que les modèles deviennent plus performants et plus autonomes dans des environnements réels.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler