Le score de débogage de Claude Fable 5 chute de 86,2 à 25,9 le 1er juillet, mais Arena.AI indique une performance stable

Selon BridgeBench, le score de débogage de Claude Fable 5 s’est effondré de 86,2 à 25,9 après sa réintégration le 1er juillet, le refactoring passant de 73,6 à 38,4. Cependant, cette baisse reflète le nouveau classificateur de sécurité d’Anthropic qui achemine la plupart des tâches de codage vers Claude Opus 4,8, et non une dégradation du modèle. Sur 12 tâches de débogage, seules trois ont atteint Fable 5 ; le classificateur en a intercepté neuf par conception pour empêcher les exploits de jailbreak.

Les tests simultanés de préférence humaine d’Arena.AI sur des milliers de votes à l’aveugle ont montré que les performances de Fable 5 étaient en grande partie inchangées après la réintégration, avec des scores documentaires en hausse de 34 points et des textes experts en hausse de 25. Les utilisateurs généralistes manipulant la rédaction créative, la recherche et l’analyse remarqueront probablement un impact minime, tandis que les développeurs travaillant sur du code adjacent à la sécurité seront confrontés à un routage de repli fréquent. Anthropic a reconnu que les classificateurs jettent actuellement un filet trop large, mais n’a fourni aucun calendrier pour l’affinement.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire