Última investigación: El modelo 9B se actualiza solo para adquirir habilidades y igualar el rendimiento de Claude Opus 4.6

Según el último documento de Penn State, UCSC y Amazon, titulado "Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents", los investigadores hallaron que las capacidades de actualización de equipamiento entre agentes de IA muestran un patrón de “aplanamiento” en distintos modelos. Las pruebas cruzadas revelaron que las actualizaciones de equipamiento de modelos diferentes generan mejoras de rendimiento que difieren solo en un 3,1%, e incluso el modelo Qwen3.5-9B de escala 9B produce actualizaciones estructuralmente equivalentes al buque insignia Claude Opus 4.6.

Sin embargo, la capacidad de los agentes para beneficiarse del equipamiento actualizado presenta tendencias no monótonas. Los modelos débiles como Qwen3-32B enfrentan dos modos de fallo críticos: “equipment activation failure” con apenas un 25,1% de tasas de carga de habilidades frente a un 96% en los modelos más fuertes, y “equipment compliance failure”, donde la adherencia a las instrucciones cae con fuerza de 0,52 a 0,13 durante la ejecución prolongada. El investigador de IA Elvis Sar señaló patrones similares en sus experimentos con agentes de codificación, sugiriendo que los presupuestos computacionales deberían priorizar los agentes de ejecución en lugar de los motores de evolución.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios