Message d’actualités Gate, 24 avril — V4 a divulgué publiquement des données internes de tests d’auto-utilisation (dogfooding) pour son modèle V4‑Pro. La société a collecté environ 200 tâches d’ingénierie issues du monde réel auprès de plus de 50 ingénieurs, couvrant le développement de fonctionnalités, la correction de bogues, la refactorisation et le diagnostic sur des piles technologiques incluant PyTorch, CUDA, Rust et C++. Après un filtrage rigoureux, 30 tâches ont été retenues pour l’évaluation de référence.
V4‑Pro‑Max a atteint un taux de réussite de codage de 67 %, surpassant nettement Sonnet 4.5 à 47 % et se rapprochant d’Opus 4.5 à 70 %. Cependant, il reste en dessous d’Opus 4.5 Thinking (73%) et d’Opus 4.6 Thinking (80%), tout en dépassant largement Haiku 4.5 à 13 %.
Dans un sondage interne auprès de 85 répondants, tous les participants ont déclaré utiliser V4‑Pro pour le codage agentique dans leurs flux de travail quotidiens. 52 % ont approuvé V4‑Pro comme modèle principal de codage par défaut, 39 % se sont montrés plutôt favorables, et moins de 9 % ont exprimé leur désapprobation. Les problèmes signalés incluaient des erreurs de bas niveau, une mauvaise interprétation d’instructions ambiguës et, occasionnellement, un comportement de sur-analyse.