Según BridgeBench, la puntuación de depuración de Claude Fable 5 cayó de 86,2 a 25,9 tras su restablecimiento el 1 de julio, y la refactorización bajó de 73,6 a 38,4. Sin embargo, el descenso refleja el nuevo clasificador de seguridad de Anthropic que dirige la mayoría de las tareas de codificación a Claude Opus 4.8, no una degradación del modelo. De 12 tareas de depuración, solo tres llegaron a Fable 5; el clasificador interceptó nueve por diseño para evitar exploits de jailbreak.
Las pruebas simultáneas de preferencia humana de Arena.AI a través de miles de votos ciegos encontraron que el rendimiento de Fable 5 se mantuvo prácticamente sin cambios después del restablecimiento, con puntuaciones de documentos subiendo 34 puntos y texto experto subiendo 25. Los usuarios generales que manejan escritura creativa, investigación y análisis probablemente notarán un impacto mínimo, mientras que los desarrolladores que trabajan con código relacionado con seguridad se enfrentan a un enrutamiento de respaldo frecuente. Anthropic reconoció que los clasificadores actualmente lanzan una red demasiado amplia, pero no proporcionó un cronograma para el refinamiento.