V4-Pro erreicht 67% Coding-Pass-Rate im internen Dogfooding-Test und kommt der Performance von Opus 4.5 nahe

Gate News-Mitteilung, 24. April — V4 hat die internen Dogfooding-Daten für sein V4-Pro-Modell öffentlich offengelegt. Das Unternehmen sammelte ungefähr 200 reale Engineering-Aufgaben von über 50 Ingenieuren, die die Entwicklung von Funktionen, Fehlerbehebungen, Refactoring und Diagnostik über Tech-Stacks hinweg umfassten, darunter PyTorch, CUDA, Rust und C++. Nach rigoroser Filterung wurden 30 Aufgaben für die Benchmark-Auswertung beibehalten.

V4-Pro-Max erreichte eine Coding-Pass-Rate von 67% und lag damit deutlich über Sonnet 4.5 mit 47% sowie nahe an Opus 4.5 mit 70%. Allerdings bleibt es hinter Opus 4.5 Thinking (73%) und Opus 4.6 Thinking (80%) zurück, während es Haiku 4.5 mit 13% deutlich übertrifft.

In einer internen Umfrage mit 85 Befragten gaben alle Teilnehmenden an, V4-Pro für agentisches Coding in täglichen Workflows zu verwenden. 52% befürworteten V4-Pro als ihr standardmäßiges primäres Coding-Modell, 39% neigten zur Zustimmung, und weniger als 9% äußerten Ablehnung. Gemeldete Probleme umfassten Low-Level-Fehler, Fehlinterpretationen mehrdeutiger Prompts und gelegentliches übermäßiges Nachdenken.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare