V4‑Pro atteint un taux de réussite de 67 % en codage lors d’un test d’auto-utilisation interne, se rapprochant des performances d’Opus 4.5

Message d’actualités Gate, 24 avril — V4 a divulgué publiquement des données internes de tests d’auto-utilisation (dogfooding) pour son modèle V4‑Pro. La société a collecté environ 200 tâches d’ingénierie issues du monde réel auprès de plus de 50 ingénieurs, couvrant le développement de fonctionnalités, la correction de bogues, la refactorisation et le diagnostic sur des piles technologiques incluant PyTorch, CUDA, Rust et C++. Après un filtrage rigoureux, 30 tâches ont été retenues pour l’évaluation de référence.

V4‑Pro‑Max a atteint un taux de réussite de codage de 67 %, surpassant nettement Sonnet 4.5 à 47 % et se rapprochant d’Opus 4.5 à 70 %. Cependant, il reste en dessous d’Opus 4.5 Thinking (73%) et d’Opus 4.6 Thinking (80%), tout en dépassant largement Haiku 4.5 à 13 %.

Dans un sondage interne auprès de 85 répondants, tous les participants ont déclaré utiliser V4‑Pro pour le codage agentique dans leurs flux de travail quotidiens. 52 % ont approuvé V4‑Pro comme modèle principal de codage par défaut, 39 % se sont montrés plutôt favorables, et moins de 9 % ont exprimé leur désapprobation. Les problèmes signalés incluaient des erreurs de bas niveau, une mauvaise interprétation d’instructions ambiguës et, occasionnellement, un comportement de sur-analyse.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire