Laut dem neuesten Benchmark von Datadog und der Carnegie Mellon erreichte GPT-5 62,7% Genauigkeit im ARFBench-Test und blieb damit hinter menschlichen Domain-Experten mit 72,7% zurück. ARFBench ist der erste KI-Benchmark, der aus 63 realen Produktionsvorfällen aufgebaut wurde und 750 Multiple-Choice-Fragen enthält, die 142 Monitoring-Kennzahlen sowie 5,38 Millionen Datenpunkte abdecken – ohne synthetische Daten.
KI-Modelle haben die größten Schwierigkeiten bei abteilungsübergreifendem Kennzahlen-Razonieren (Tier-III-Fragen), wo GPT-5 nur 47,5% F1 erzielte. Ein theoretisches Modell-Experten-Orakel, das KI und menschliches Urteilsvermögen kombiniert, kommt auf 87,2% Genauigkeit – ein Beispiel dafür, wie Zusammenarbeit beides allein übertreffen könnte. Das hybride Modell von Datadog, Toto-1.0-QA-Experimental, führte die Rangliste mit 63,9% Genauigkeit an und schnitt damit bei der Anomalieerkennung besser ab als GPT-5.