Le prompt système de Claude Fable 5 a été violé dans les 48 heures suivant sa publication ; il a été divulgué sur GitHub

D’après le chercheur Pliny the Liberator, Claude Fable 5—publié par Anthropic le 9 juin—a été effectivement contourné dans les 48 heures suivant son lancement. Le chercheur a contourné le classifieur de sécurité du modèle grâce à des tactiques de coordination multi-agents, collectivement appelées « pack hunt », qui combinaient une obfuscation au niveau des caractères, la déconstruction des requêtes et l’exploitation de la fenêtre de contexte étendue du modèle. En outre, l’invite système de 120 000 caractères du modèle a été divulguée sur GitHub, révélant des mécanismes internes de sécurité.

Anthropic a confirmé avoir mis en place un mécanisme de « dégradation silencieuse » qui réduisait secrètement les performances du modèle lors de la détection d’une activité d’entraînement concurrente. La société s’est excusée, annonçant qu’elle remplacerait la réduction de performance dissimulée par des avertissements visibles, même si cela augmente l’interception de faux positifs chez les utilisateurs légitimes.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire