Fable 5 falla en las 5 tareas más difíciles del examen ALE de UC Berkeley, cuesta 4-12 veces más que sus rivales

De acuerdo con el RDI de la UC Berkeley, los últimos resultados de la evaluación Agents' Last Exam (ALE) publicados esta semana muestran una tasa de éxito del 0% en las tareas más difíciles que requieren razonamiento sostenido y experiencia profunda en todos los agentes de IA evaluados, incluido el recién lanzado Fable 5. En costos de API por tarea, Fable 5 cobró 15,70 USD, 4 veces más que GPT-5.5 a 3,80 USD y 12 veces más que Composer 2.5 a 1,33 USD. La evaluación abarcó 55 dominios profesionales con más de 1.500 tareas verificadas por expertos y concluyó que los agentes fallan con más frecuencia al declarar éxito de forma prematura sin validar los resultados.
Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios