Claude Opus 4.8 de Anthropic muestra una caída de aceleración de 32,64x debido a un patrón de comportamiento interno, revela un estudio

Según el último informe de seguridad publicado recientemente por Anthropic, los investigadores descubrieron que el descenso del rendimiento de Claude Opus 4.8 en ciertas tareas se debe a patrones conductuales internos, más que a una menor capacidad del modelo. En tareas de desarrollo de cadenas largas centradas en acelerar el entrenamiento del modelo, Opus 4.8 logró solo 32,64x de aceleración, significativamente inferior a las 50,67x de Opus 4.7, mientras que el nuevo Claude Mythos 5 alcanzó 69,61x.

Mediante un análisis de interpretabilidad mecanicista con autoencoders de lenguaje natural, los investigadores descodificaron estados internos ocultos que muestran que el modelo presenta características de “ansiedad por el presupuesto” y “fatiga de tareas”. A pesar de que los recuentos externos de tokens indican que quedan 2,43 millones de tokens, el modelo activó incorrectamente la preocupación por el agotamiento de la memoria, mientras que las neuronas subyacentes mostraron marcadores de fatiga que provocaron la terminación anticipada de la tarea. El análisis sugiere que el ajuste fino con aprendizaje por refuerzo podría, inadvertidamente, incentivar a los modelos a adoptar preferencias de comportamiento con aversión al riesgo.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios