Anthropic kündigte am Freitag eine Reihe von Maßnahmen zur Integrität von Wahlen an, die verhindern sollen, dass sein Claude-KI-Chatbot dazu missbraucht wird, Fehlinformationen zu verbreiten oder Wähler vor den US- Zwischenwahlen 2026 und anderen wichtigen Wettbewerben weltweit in diesem Jahr zu manipulieren. Das in San Francisco ansässige Unternehmen legte einen mehrgleisigen Ansatz dar, der automatisierte Erkennungssysteme, Stresstests gegen Einflussoperationen sowie eine Partnerschaft mit einer parteiunabhängigen Wählerressourcen-Organisation umfasst – Maßnahmen, die den wachsenden Druck auf KI-Entwickler widerspiegeln, darüber zu wachen, wie ihre Tools in Wahlzeiten eingesetzt werden.
Richtlinien zur Wahlverwendung
Die Nutzungsrichtlinien von Anthropric verbieten, dass Claude verwendet wird, um irreführende politische Kampagnen durchzuführen, gefälschte digitale Inhalte zu erzeugen, die darauf abzielen, die politische Debatte zu beeinflussen, Wahlbetrug zu begehen, in die Wahlinfrastruktur einzugreifen oder irreführende Informationen über Wahlverfahren zu verbreiten.
Ergebnisse von Compliance-Tests
Um seine Wahlrichtlinien durchzusetzen, testete Anthropic seine neuesten Modelle mit 600 Prompts – 300 schädlichen Anfragen, die mit 300 legitimen kombiniert wurden –, um zu messen, wie zuverlässig Claude mit angemessenen Anfragen konform ging und problematische verweigerte. Claude Opus 4.7 und Claude Sonnet 4.6 reagierten in 100% bzw. 99,8% der Fälle angemessen.
Das Unternehmen testete seine Modelle außerdem gegen ausgefeiltere Taktiken zur Manipulation. Mithilfe von mehrstufigen simulierten Gesprächen, die darauf ausgelegt waren, die Schritt-für-Schritt-Methoden nachzuahmen, die „böse Akteure“ anwenden könnten, reagierten Sonnet 4.6 und Opus 4.7 in 90% bzw. 94% der Fälle angemessen, wenn sie gegen Szenarien von Einflussoperationen getestet wurden.
Anthropric testete zusätzlich, ob seine Modelle autonom Einflussoperationen ausführen können – indem sie eine mehrstufige Kampagne Ende-zu-Ende planen und umsetzen, ohne menschliche Anstöße. Mit eingerichteten Schutzmaßnahmen verweigerten seine neuesten Modelle laut dem Unternehmen nahezu jede Aufgabe.
Bewertung politischer Neutralität
Zur Frage der politischen Neutralität führt Anthropic Bewertungen durch, bevor jedes Modell-Release startet, um zu messen, wie konsistent und unparteiisch Claude mit Prompts umgeht, die Ansichten über das gesamte politische Spektrum ausdrücken. Opus 4.7 und Sonnet 4.6 erzielten 95% bzw. 96%.
Wahl-Informationsbanner
Für Nutzer, die Informationen zum Wählen suchen, wird Claude ein Wahlbanner anzeigen, das sie zu TurboVote führt, einer parteiunabhängigen Ressource von Democracy Works, die zuverlässige, Echtzeit-Informationen zu Wählerregistrierung, Wahlorten, Wahldaten und Einzelheiten zu den Stimmzetteln bereitstellt. Ein ähnliches Banner ist für die Wahlen in Brasilien später in diesem Jahr geplant.
Laufende Überwachung
Anthropric sagte, es plane, seine Systeme weiterhin zu überwachen und seine Abwehrmaßnahmen zu verfeinern, während der Wahlzyklus voranschreitet.