Fünf Frontier-AI-Modelle sind sich bei 67% der Fact-Check-Behauptungen uneinig, so eine Studie

2026-05-29 17:33:32

Eine diese Monat veröffentlichte Studie von der Forscherin Kosta Jordanov bei Lenz Research ergab, dass fünf führende KI-Modelle bei 67% von 1.000 realen, faktengeprüften Behauptungen uneins waren. Einstimmigkeit gab es nur bei 328 Behauptungen. Die Forschung testete GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro mit Search und Sonar Pro an Behauptungen, die von echten Nutzern bei einer Faktenprüfungs-Plattform eingereicht wurden. Die Modelle erreichten eine Krippendorff's-alpha Punktzahl von 0,639 und lagen damit unter der Schwelle von 0,8, die Forscher allgemein als zuverlässig betrachten. Die Uneinigkeiten traten auf, obwohl alle Modelle identische Behauptungen anhand des gleichen Vier-Label-Systems bewerteten: true, mostly true, misleading oder false. Die Ergebnisse unterstreichen Zuverlässigkeitsbedenken, da Menschen zunehmend KI-Systeme für das Fact-Checking nutzen.

Studienmethodik: Verwendete Behauptungen von echten Nutzern

Die Forschung gab fünf KI-Modellen dieselben 1.000 realen, faktengeprüften Behauptungen, die von echten Nutzern eingereicht wurden. Die Modelle mussten eines von vier Labels auswählen: true, mostly true, misleading oder false. Die Studie verwendete Behauptungen, die von echten Menschen an Len(’s) Faktenprüfungsplattform eingereicht wurden, statt aus Standard-Testsets zu schöpfen. „Die meisten dieser Behauptungen werden höchstwahrscheinlich in keinem Trainingskorpus auftauchen, an das ein Gold-Label angehängt ist—es gibt keinen kanonischen Answer-Key, gegen den man Muster abgleichen könnte, keine Benchmark-Leaderboard, an der man sich festmachen kann“, heißt es in dem Papier.

Fünf KI-Modelle lagen bei 672 von 1.000 Behauptungen auseinander

Bei 672 von 1.000 Behauptungen wich mindestens ein Modell von der Mehrheit ab. In 34% der Fälle war die Uneinigkeit gravierend: ein Modell nannte eine Behauptung true, während ein anderes sie false nannte. „Das sind keine Benchmark-Items mit öffentlichen Answer-Keys—es sind Behauptungen, die echte Nutzer zur Verifizierung bei einer Faktenprüfungs-Plattform eingereicht haben“, schreibt die Studie. „Für jede Behauptung kann nur ein Urteils-„Bucket“ korrekt sein, sodass jede Uneinigkeit im Panel bedeutet, dass mindestens ein Modell mit seinem Urteil unter dieser 4-Bucket-Rubrik label-inkonsistent ist.“

Statistischer Zuverlässigkeitswert fällt unter Standard-Schwelle

Das statistische Maß der Übereinstimmung, genannt Krippendorff's alpha, lag bei 0,639 auf einer Skala, auf der 1,0 perfekte Übereinstimmung bedeutet und 0 zufälliges Raten. Die Studie sagt, dies deute auf „nichttriviale, aber begrenzte Übereinstimmung“ hin. „Die Urteile der Modelle sind strukturiert, nicht zufällig, aber nicht konsistent genug, um das Panel als einen einzelnen austauschbaren Prüfer zu behandeln“, so die Forschenden. Forschende betrachten im Allgemeinen alles unter 0,8 als schwach.

Modelle zeigten bei Beispielbehauptungen eine starke Divergenz

Die Forschenden lieferten Beispielbehauptungen, bei denen die KI-Modelle die größte Divergenz zeigten, darunter: „Das aktive Portfolio der Weltbank in Nigeria liegt im Jahr 2025 bei über $16,4 Milliarden.“ ChatGPT 5.4 sagte es sei „mostly true“, während Gemini 3 Pro es als „false“ einstufte und sein Schwester-Modell Gemini 3 Pro + Search es als „misleading“ bewertete.

In einem weiteren Beispiel erhielten die Modelle die Behauptung: „Donald Trump sagte, dass ein Angriff auf den Iran auf Wunsch der Golf-Alliierten verschoben worden sei.“ GPT-5.4 sagte, das sei false, Claude Opus 4.7 nannte es mostly true, Gemini 3 Pro sagte false, und Gemini 3 Pro + Search bewertete es als true.

Einstimmige Übereinstimmung gab es nur bei faktischen Extremen

Wenn alle fünf Modelle sich einig waren—was nur bei 328 von 1.000 Behauptungen vorkam—stimmten sie fast nie darin überein, dass etwas misleading oder mostly true war. Nur vier Behauptungen erhielten ein einstimmiges „misleading“. Keine erhielt ein einstimmiges „mostly true“. „Das Panel konvergiert zu eindeutigen Urteilen; das Mittelfeld der Rubrik ist der Bereich, in dem es bricht“, befanden die Forschenden. Einmütigkeit trat nur an den Extremen auf: Entweder war die Behauptung eindeutig true oder eindeutig false.

Das Papier weist sorgfältig darauf hin: „Die Mehrheit führender Modelle ist nicht die Ground Truth. Das Mehrheitsurteil ist manchmal falsch; ein einzelnes abweichendes Modell ist manchmal richtig. Wir nutzen die Mehrheit als strukturellen Referenzpunkt, um Uneinigkeit zu messen, nicht als Stellvertreter für Korrektheit.“

FAQ

Was hat die Lenz-Research-Studie über die Übereinstimmung von KI-Modellen beim Fact-Checking herausgefunden?
Die Studie fand, dass fünf führende KI-Modelle bei 67% von 1.000 realen Fact-Check-Behauptungen, die von echten Nutzern eingereicht wurden, uneins waren. Einstimmigkeit gab es nur bei 328 Behauptungen, und die Modelle erreichten eine Krippendorff's-alpha Punktzahl von 0,639—unter der Zuverlässigkeits-Schwelle von 0,8, die Forschende allgemein als akzeptabel betrachten.

Wie haben die KI-Modelle bei der Beispielbehauptung zum World-Bank-Portfolio in Nigeria abgeschnitten?
ChatGPT 5.4 bewertete die Behauptung „The World Bank's active portfolio in Nigeria stands an over $16.4 billion as of 2025“ als mostly true, während Gemini 3 Pro sie als false bezeichnete und Gemini 3 Pro + Search sie als misleading bewertete—was eine starke Divergenz der Modelle bei derselben Faktenbehauptung zeigt.

Warum hat die Studie Behauptungen von echten Nutzern verwendet statt Standard-Testsets?
Die Forschenden nutzten Behauptungen, die von realen Menschen an Len(z)s Faktenprüfungsplattform eingereicht wurden, weil die meisten dieser Behauptungen höchstwahrscheinlich in keinem Trainingskorpus mit angehängtem Gold-Label auftauchen. Dadurch wird die Möglichkeit eliminiert, dass Modelle Muster gegen Benchmark-Answer-Keys abgleichen, und es entsteht ein realistischeres Testumfeld für die Zuverlässigkeit des Fact-Checkings.

View Source

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.