V4-Pro logra una tasa de aprobación de codificación del 67% en pruebas internas de dogfooding, acercándose al rendimiento de Opus 4.5

Mensaje de Gate News, 24 de abril — V4 ha divulgado públicamente datos internos de dogfooding de su modelo V4-Pro. La empresa recopiló aproximadamente 200 tareas de ingeniería del mundo real de más de 50 ingenieros, que abarcan el desarrollo de funciones, correcciones de errores, refactorización y diagnósticos en pilas tecnológicas que incluyen PyTorch, CUDA, Rust y C++. Tras un riguroso filtrado, se conservaron 30 tareas para la evaluación del benchmark.

V4-Pro-Max logró una tasa de aprobación de codificación del 67%, superando significativamente a Sonnet 4.5 con un 47% y acercándose a Opus 4.5 con un 70%. Sin embargo, queda por detrás de Opus 4.5 Thinking (73%) y Opus 4.6 Thinking (80%), mientras que supera sustancialmente a Haiku 4.5 con un 13%.

En una encuesta interna con 85 encuestados, todos los participantes informaron usar V4-Pro para codificación orientada a agentes en flujos de trabajo diarios. El 52% respaldó V4-Pro como su modelo principal predeterminado de codificación, el 39% se inclinó por la aprobación y menos del 9% expresó desaprobación. Los problemas informados incluyeron errores de bajo nivel, la mala interpretación de indicaciones ambiguas y un comportamiento ocasional de sobrepensamiento.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios