Anthropic s’excuse pour les 5 garde-fous cachés de Claude Fable, et les remplace par des solutions de repli visibles vers Opus 4,8 cette semaine

D’après le compte X officiel d’Anthropic, le 11 juin, l’entreprise a présenté ses excuses pour avoir dégradé secrètement les réponses de Claude Fable 5 pour les utilisateurs soupçonnés de construire des modèles d’IA concurrents, reconnaissant que les garde-fous invisibles constituaient un « mauvais compromis ». À partir de cette semaine, les requêtes signalées repasseront visiblement à Claude Opus 4.8 au lieu de livrer en silence un contenu dégradé. Sur l’API, les utilisateurs recevront désormais une raison indiquée lorsqu’une requête est refusée, tandis que des notifications de repli côté serveur seront déployées dans les prochains jours. Anthropic a reconnu le compromis : rendre les garde-fous visibles les rend plus faciles à contourner, ce qui signifie que davantage de faux positifs pour des travaux légitimes d’apprentissage automatique pourraient se produire pendant que l’entreprise ajuste ses systèmes.
Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire