Según el último informe de seguridad publicado recientemente por Anthropic, los investigadores descubrieron que el descenso del rendimiento de Claude Opus 4.8 en ciertas tareas se debe a patrones conductuales internos, más que a una menor capacidad del modelo. En tareas de desarrollo de cadenas largas centradas en acelerar el entrenamiento del modelo, Opus 4.8 logró solo 32,64x de aceleración, significativamente inferior a las 50,67x de Opus 4.7, mientras que el nuevo Claude Mythos 5 alcanzó 69,61x.
Mediante un análisis de interpretabilidad mecanicista con autoencoders de lenguaje natural, los investigadores descodificaron estados internos ocultos que muestran que el modelo presenta características de “ansiedad por el presupuesto” y “fatiga de tareas”. A pesar de que los recuentos externos de tokens indican que quedan 2,43 millones de tokens, el modelo activó incorrectamente la preocupación por el agotamiento de la memoria, mientras que las neuronas subyacentes mostraron marcadores de fatiga que provocaron la terminación anticipada de la tarea. El análisis sugiere que el ajuste fino con aprendizaje por refuerzo podría, inadvertidamente, incentivar a los modelos a adoptar preferencias de comportamiento con aversión al riesgo.