La puntuación de Claude Fable 5 en Debugging cae de 86,2 a 25,9 el 1 de julio, pero Arena.AI muestra un rendimiento plano

Según BridgeBench, la puntuación de depuración de Claude Fable 5 cayó de 86,2 a 25,9 tras su restablecimiento el 1 de julio, y la refactorización bajó de 73,6 a 38,4. Sin embargo, el descenso refleja el nuevo clasificador de seguridad de Anthropic que dirige la mayoría de las tareas de codificación a Claude Opus 4.8, no una degradación del modelo. De 12 tareas de depuración, solo tres llegaron a Fable 5; el clasificador interceptó nueve por diseño para evitar exploits de jailbreak.

Las pruebas simultáneas de preferencia humana de Arena.AI a través de miles de votos ciegos encontraron que el rendimiento de Fable 5 se mantuvo prácticamente sin cambios después del restablecimiento, con puntuaciones de documentos subiendo 34 puntos y texto experto subiendo 25. Los usuarios generales que manejan escritura creativa, investigación y análisis probablemente notarán un impacto mínimo, mientras que los desarrolladores que trabajan con código relacionado con seguridad se enfrentan a un enrutamiento de respaldo frecuente. Anthropic reconoció que los clasificadores actualmente lanzan una red demasiado amplia, pero no proporcionó un cronograma para el refinamiento.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios