Claude Opus 4.6 最近好像真的變笨了……


上週在 BridgeBench 幻覺基準測試裡,它還穩穩排第2,準確率83.3%
結果4月12日重新測試,直接掉到第10名,準確率只剩68.3%,幻覺率暴增98%
前後對比圖一看,差距真的很明顯
不少人最近用它寫程式、做推理時也感覺明顯變笨了,指令忘得快、胡說八道增多
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言