Laut dem Forscher Kosta Jordanov von Lenz Research widersprachen sich dieses Monat fünf fortschrittliche KI-Modelle bei 67% von 1.000 realen Fakten-Check-Aussagen, die getestet wurden. Die Modelle—GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro mit Search und Sonar Pro—wurden gebeten, Behauptungen als wahr, größtenteils wahr, irreführend oder falsch einzuordnen. In 34% der Fälle war die Uneinigkeit stark: Ein Modell bewertete eine Behauptung als wahr, während ein anderes sie als falsch einstufte.
Die Studie maß die Übereinstimmung mit Krippendorffs Alpha, das 0,639 auf einer Skala von 1,0 für perfekte Übereinstimmung ergab; Forschende betrachten Werte unter 0,8 allgemein als schwach. Ungeteilte Übereinstimmung gab es nur bei 328 von 1.000 Aussagen, und bemerkenswert ist: Keine einzige Behauptung erhielt einstimmig ein Urteil „größtenteils wahr“. Die Forschenden nutzten Behauptungen, die von echten Nutzern an Lenz’ Fakten-Check-Plattform eingereicht wurden, statt standardmäßiger Benchmarks. Das senkte die Wahrscheinlichkeit, dass die Modelle Muster aus Trainingsdaten erkannten.