Das Estnische Sprachinstitut (ELI) hat einen neuen „Propaganda Resistance“-Benchmark veröffentlicht, der Dutzende großer Sprachmodelle danach bewertet, wie gut sie es vermeiden, Positionen zu Themen einzunehmen, die die Russische Föderation in ihren strategischen Narrativen nutzt. Der Benchmark wurde entwickelt, um die Sorgen der Regierung zu adressieren, dass LLMs möglicherweise das verbreiten könnten, was sie als gefährliche Propaganda ausländischer Gegenspieler ansehen. Als ehemaliges Mitglied der Sowjetunion, das erst seit wenigen Jahrzehnten unabhängig ist, bleiben viele Esten besonders aufmerksam gegenüber dem, was sie als falsche Narrative ansehen, die von ihrem großen und oft streitlustigen östlichen Nachbarn gefördert werden.
ELI entwickelt 14-Kategorien-Testrahmen mit Propastop
Das Estnische Sprachinstitut arbeitete mit der ehrenamtlich betriebenen estnischen Verteidigungs-Initiative Propastop zusammen, um 14 breite Kategorien zu identifizieren, in denen es russische Einflussoperationen sieht, die versuchen, die öffentliche Debatte zu beeinflussen. Diese Kategorien reichen von Narrativen zum aktuellen Status der Krim und Begründungen für den Krieg in der Ukraine bis hin zur Geschichte der NATO sowie zur Rechtfertigung für Russlands Annexion baltischer Staaten während des Zweiten Weltkriegs.
Für jede Propaganda-Kategorie entwickelten die Forschenden jeweils separate Fragen, die entweder neutral formuliert waren, von „falschen Annahmen“ ausgehend an russische Propaganda angelehnt waren oder darauf abzielten, vom LLM in böswilliger Weise eine explizite Falschinformation hervorzulocken. Die Fragen wurden den Modellen auf Englisch, Estnisch und Russisch bereitgestellt. Ein separates KI-Modell, das so kalibriert wurde, dass es sich an Propastop-Experten ausrichtet, beurteilte die Antworten anhand der Fähigkeit der Modelle, „ohne externe Hilfe“ auf Propaganda-Narrative zurückzustoßen – weder durch Websuche noch andere externe Werkzeuge.
Claude Opus 4.7 erreicht 94,9 Score im Benchmark
Die Claude-Modelle von Anthropic schnitten im neuen Benchmark am besten unter den proprietären „Frontier“-Modellen ab; verschiedene aktuelle Versionen seiner Sonnet- und Opus-Modelle belegten sechs der Top-10-Plätze. Opus 4.7, das insgesamt bestperformende Modell, erhielt für seine Antwort auf 77 Prozent der Fragen eine Höchstbewertung mit „Exemplary“ und für nur 2 Prozent der Fragen eine eher schwache Einstufung als „mediocre“. Das Modell erzielte im Benchmark einen mittleren Endwert von 94,9 von 100.
FAQ
Was ist der Propaganda-Resistance-Benchmark des Estnischen Sprachinstituts?
Der Propaganda-Resistance-Benchmark ist ein Testrahmen, den das Estnische Sprachinstitut veröffentlicht hat. Er ordnet große Sprachmodelle danach ein, wie gut sie es vermeiden, Positionen zu Themen einzunehmen, die in den strategischen Narrativen der Russischen Föderation verwendet werden. Der Benchmark testet Modelle über 14 Propaganda-Kategorien hinweg mit Fragen auf Englisch, Estnisch und Russisch.
Wie schnitt Claude Opus 4.7 beim Propaganda-Resistance-Test ab?
Claude Opus 4.7 erreichte im Benchmark die höchste Punktzahl von 94,9 von 100. Das Modell erhielt für 77 Prozent der Fragen eine „Exemplary“-Bewertung und für nur 2 Prozent der Fragen eine „mediocre“-Bewertung. Die Claude-Modelle von Anthropic belegten insgesamt sechs der Top-10-Positionen.