GPT-5 erreicht 62,7% Genauigkeit bei Produktionsvorfällen, bleibt jedoch unter der 72,7% Experten-Benchmark

Laut dem neuesten Benchmark von Datadog und der Carnegie Mellon erreichte GPT-5 62,7% Genauigkeit im ARFBench-Test und blieb damit hinter menschlichen Domain-Experten mit 72,7% zurück. ARFBench ist der erste KI-Benchmark, der aus 63 realen Produktionsvorfällen aufgebaut wurde und 750 Multiple-Choice-Fragen enthält, die 142 Monitoring-Kennzahlen sowie 5,38 Millionen Datenpunkte abdecken – ohne synthetische Daten.

KI-Modelle haben die größten Schwierigkeiten bei abteilungsübergreifendem Kennzahlen-Razonieren (Tier-III-Fragen), wo GPT-5 nur 47,5% F1 erzielte. Ein theoretisches Modell-Experten-Orakel, das KI und menschliches Urteilsvermögen kombiniert, kommt auf 87,2% Genauigkeit – ein Beispiel dafür, wie Zusammenarbeit beides allein übertreffen könnte. Das hybride Modell von Datadog, Toto-1.0-QA-Experimental, führte die Rangliste mit 63,9% Genauigkeit an und schnitt damit bei der Anomalieerkennung besser ab als GPT-5.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare