2026-04-13 15:52:30

Claude Opus 4.6 semble vraiment avoir perdu en intelligence récemment… La semaine dernière, lors du benchmark hallucination sur BridgeBench, il était toujours solidement en 2ème position, avec un taux de précision de 83,3 %

Résultat, le 12 avril, lors d’un nouveau test, il est directement tombé à la 10ème place, avec un taux de précision de seulement 68,3 %, et un taux d’hallucination qui a explosé à 98 %
La comparaison avant-après montre vraiment une différence évidente
Beaucoup de gens ont aussi remarqué qu’en écrivant du code ou en faisant des inférences avec lui récemment, il semble devenir nettement plus bête, oubliant rapidement les instructions, et parlant beaucoup plus de n’importe quoi

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateFounderDrHan13thAnniversaryLetter
50.36K Popularité
#
CryptoMarketRecovery
73.28K Popularité
#
IsraelStrikesIranBTCPlunges
29.49K Popularité
#
USBlocksStraitofHormuz
721.72K Popularité
#
Circle拒冻结Drift被盗USDC
1.67M Popularité

Épingler

Claude Opus 4.6 semble vraiment avoir perdu en intelligence récemment… La semaine dernière, lors du benchmark hallucination sur BridgeBench, il était toujours solidement en 2ème position, avec un taux de précision de 83,3 %

Sujets populaires

GateFounderDrHan13thAnniversaryLetter

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

USBlocksStraitofHormuz

Circle拒冻结Drift被盗USDC

Épingler