Claude Opus 4.6 semble vraiment avoir perdu en intelligence récemment… La semaine dernière, lors du benchmark hallucination sur BridgeBench, il était toujours solidement en 2ème position, avec un taux de précision de 83,3 %


Résultat, le 12 avril, lors d’un nouveau test, il est directement tombé à la 10ème place, avec un taux de précision de seulement 68,3 %, et un taux d’hallucination qui a explosé à 98 %
La comparaison avant-après montre vraiment une différence évidente
Beaucoup de gens ont aussi remarqué qu’en écrivant du code ou en faisant des inférences avec lui récemment, il semble devenir nettement plus bête, oubliant rapidement les instructions, et parlant beaucoup plus de n’importe quoi
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler