据Beating监测,Sakana AI的多智能体系统Fugu Ultra声称在科学推理和编码基准测试中击败了Anthropic的Fable 5,但这一说法面临AI社区的广泛质疑。
批评者认为,基准测试分数高度依赖于评估过程中使用的测试框架。不同的框架实现可能导致10-20分的差异,这意味着报告的性能差异可能反映的是系统工程优化,而非基础模型能力的进步。
Sakana AI和Anthropic都发布了基于专有、供应商特定框架的结果,没有统一的第三方测试环境,这限制了直接比较的可靠性。
関連ニュース
六大 AI 模型政治測量:Grok 偏右強度 97%,Gemini 最接近中立
アンソロピック、アリババ関連の蒸留キャンペーンがClaude AIに対して行われたと主張
クルーグマン:AI業界の警告が技術に対する世間の反発を煽った