Según el monitoreo de Beating, las supuestas victorias del sistema multiagente Fugu Ultra de Sakana AI sobre Fable 5 de Anthropic en puntos de referencia de razonamiento científico y codificación se enfrentan a un escepticismo generalizado por parte de la comunidad de IA.
Los críticos argumentan que las puntuaciones de los benchmarks dependen en gran medida de los scaffolds de prueba utilizados durante la evaluación. Diferentes implementaciones de scaffolds pueden introducir variaciones de 10 a 20 puntos, lo que significa que las diferencias de rendimiento reportadas pueden reflejar optimización de ingeniería del sistema en lugar de avances fundamentales en la capacidad del modelo. Tanto Sakana AI como Anthropic publicaron resultados basados en scaffolds propietarios y específicos del proveedor, sin entornos de prueba unificados de terceros, lo que limita la fiabilidad de las comparaciones directas.