
Eine neue Studie von Oumi, berichtet von der The New York Times, ergab, dass Googles KI-Overviews in 9% der Fälle ungenau sind – das entspricht bei Googles Größenordnung Zehnmillionen falscher Antworten pro Stunde. Mehr als die Hälfte der zutreffenden Antworten nannte außerdem Quellen, die ihre Behauptungen nicht vollständig stützen, während Google die Studie als „ernsthaft fehlerhaft“ bezeichnete.
Oumi analysierte 4.326 von Gemini 2 im Oktober und Gemini 3 im Februar beantwortete Suchanfragen und stellte fest, dass Gemini 2 85% Genauigkeit erreichte, während Gemini 3 sich auf 91% verbesserte. Für sich genommen sind diese Zahlen für ein generatives KI-System vertretbar.
Die Herausforderung ist das Volumen. Bei Googles gemeldeter Rate von 5 Billionen+ Suchanfragen pro Jahr ergibt die Rechnung ein beunruhigendes Bild:
· ~14 Millionen ungenaue KI-Antworten, die jede Stunde erzeugt werden
· ~230.000 falsche Antworten, die jede Minute ausgeliefert werden
· ~4.000 Fehler, die bei Spitzennutzung jede Sekunde erzeugt werden
Das Argument zur Größenordnung verschiebt die gesamte Debatte zur Genauigkeit: Selbst eine kleine Fehlerquote, angewandt auf ein System, das von Milliarden Menschen genutzt wird, wird in absoluten Zahlen zu einem Problem mit großflächiger Falschinformation.
Jenseits der reinen Kennzahlen zur Genauigkeit identifizierte Oumi ein separates und vermutlich noch besorgniserregenderes Problem: „Grounding“ – also ob die in den KI-Overviews zitierten Quellen die aufgestellten Behauptungen tatsächlich stützen. Die Ergebnisse zeigen, dass Gemini 3, obwohl es genauer ist als sein Vorgänger, deutlich schlechter darin ist, wirklich unterstützende Zitate bereitzustellen.
Unter Gemini 2 waren 37% der korrekten Antworten nicht verankert (ungrounded). Diese Zahl stieg unter Gemini 3 auf 56% – das bedeutet, dass die Mehrheit der zutreffenden Antworten noch immer mit Quellen verknüpft war, die die bereitgestellten Informationen nicht vollständig belegen. Das erzeugt ein Verifikationsproblem: Nutzer, die durchklicken, um eine Antwort „zu bestätigen“, können feststellen, dass die Quelle etwas anderes oder Unvollständiges sagt.
Die Analyse der Quellen über 5.380 zitierte Referenzen hinweg brachte zudem Bedenken hinsichtlich der Plattformen auf. Facebook belegte insgesamt den zweitmeisten genannten Platz, während Reddit auf dem vierten Rang landete. Beide sind Social-Media-Plattformen, auf denen nutzergenerierte, nicht verifizierte Inhalte verbreitet sind – wenn sie an die Spitze eines von KI synthetisierten Suchergebnisses gesetzt werden, erhalten sie unverdiente Autorität. Facebook wurde in 5% der zutreffenden Antworten und in 7% der ungenauen genannt, was auf ein Muster hindeutet, das es zu beobachten gilt.
Google akzeptierte die Schlussfolgerungen der Studie nicht kommentarlos. Ein Sprecher, Ned Adriance, stellte das grundlegende Design der Analyse infrage: Oumi bewertete Googles KI-Genauigkeit mithilfe seines eigenen KI-Modells, was eine methodische Zirkularität einführt – wenn das Modell von Oumi selbst Fehler machen kann, können die Urteile über Googles Fehler selbst wiederum unzuverlässig sein.
„Diese Studie hat ernsthafte Lücken“, sagte Adriance. „Sie spiegelt nicht wider, wonach Menschen auf Google tatsächlich suchen.“
Google veröffentlichte außerdem eigene vergleichende Daten. Das Unternehmen erklärte, dass das eigenständige Gemini 3 – also ohne den zusätzlichen Kontext, der durch KI-Overviews bereitgestellt wird – in 28% der Fälle ungenau war. Das deutet darauf hin, dass das KI-Overviews-System gegenüber der reinen Modell-Ausgabe bedeutsame Verbesserungen bei der Genauigkeit liefert. Das Unternehmen hält an seinem üblichen Standardhinweis unten in allen KI-Overviews fest: „KI kann Fehler machen, daher antworte doppelt prüfen.“
Google KI-Overviews sind von KI generierte Zusammenfassungen, die oben in den Google-Suchergebnissen erscheinen. Sie synthetisieren Antworten auf Nutzeranfragen und zitieren unterstützende Webquellen. Der Feature wird von Googles Gemini-Modellen angetrieben. Er wurde 2024 breit eingeführt und erscheint inzwischen bei Milliarden von Suchanfragen weltweit. Sie unterscheiden sich von Standard-Suchergebnissen, da sie Text erzeugen statt lediglich Links aufzulisten.
Ein KI-Overview gilt als „ungrounded“, wenn die Websites, die es zitiert, die in der Zusammenfassung präsentierten Informationen tatsächlich nicht überprüfen oder nicht vollständig unterstützen. Das ist problematisch, weil Nutzer, die versuchen, eine Behauptung zu prüfen, indem sie auf die zitierte Quelle klicken, möglicherweise feststellen, dass die Quelle der KI-Aussage widerspricht, sie teilweise unterstützt oder völlig unbezogen ist. Das untergräbt die Rolle des Systems als zuverlässiges Informationswerkzeug und macht eine unabhängige Verifikation schwieriger.
Google selbst erkennt die Einschränkung mit seinem eingebauten Hinweis an, dass KI Fehler machen kann. Bei wenig risikoreichen Abfragen könnten KI-Overviews einen nützlichen Ausgangspunkt liefern. Bei Gesundheits-, Rechts-, Finanz- oder Tatsachenentscheidungen sollten Nutzer Informationen unabhängig anhand autoritativer, primärer Quellen verifizieren, statt sich ausschließlich auf von KI synthetisierte Zusammenfassungen zu verlassen. Es wird empfohlen, die zitierten Quellen direkt zu prüfen – statt die Einordnung der KI zu akzeptieren.