Gate News-Mitteilung, 24. April — V4 hat die internen Dogfooding-Daten für sein V4-Pro-Modell öffentlich offengelegt. Das Unternehmen sammelte ungefähr 200 reale Engineering-Aufgaben von über 50 Ingenieuren, die die Entwicklung von Funktionen, Fehlerbehebungen, Refactoring und Diagnostik über Tech-Stacks hinweg umfassten, darunter PyTorch, CUDA, Rust und C++. Nach rigoroser Filterung wurden 30 Aufgaben für die Benchmark-Auswertung beibehalten.
V4-Pro-Max erreichte eine Coding-Pass-Rate von 67% und lag damit deutlich über Sonnet 4.5 mit 47% sowie nahe an Opus 4.5 mit 70%. Allerdings bleibt es hinter Opus 4.5 Thinking (73%) und Opus 4.6 Thinking (80%) zurück, während es Haiku 4.5 mit 13% deutlich übertrifft.
In einer internen Umfrage mit 85 Befragten gaben alle Teilnehmenden an, V4-Pro für agentisches Coding in täglichen Workflows zu verwenden. 52% befürworteten V4-Pro als ihr standardmäßiges primäres Coding-Modell, 39% neigten zur Zustimmung, und weniger als 9% äußerten Ablehnung. Gemeldete Probleme umfassten Low-Level-Fehler, Fehlinterpretationen mehrdeutiger Prompts und gelegentliches übermäßiges Nachdenken.