Laut Überwachung durch Beating stoßen die von Sakana AIs Multi-Agenten-System Fugu Ultra behaupteten Siege über Anthropics Fable 5 in den Benchmarks für wissenschaftliches Denken und Programmierung auf weitverbreitete Skepsis in der KI-Community.
Kritiker argumentieren, dass Benchmark-Ergebnisse stark von den bei der Evaluierung verwendeten Test-Scaffolds abhängen. Unterschiedliche Scaffold-Implementierungen können zu Schwankungen von 10-20 Punkten führen, was bedeutet, dass die gemeldeten Leistungsunterschiede eher auf Optimierungen der Systemtechnik als auf grundlegende Fortschritte der Modellfähigkeiten zurückzuführen sein könnten. Sowohl Sakana AI als auch Anthropic haben Ergebnisse auf Basis proprietärer, anbieterspezifischer Scaffolds ohne einheitliche Drittanbieter-Testumgebungen veröffentlicht, was die Zuverlässigkeit direkter Vergleiche einschränkt.