Forscher der University of Southern California haben eine Studie veröffentlicht, die zu dem Ergebnis kommt, dass jedes getestete Frontier-„AI“-Modell gegen Richtlinien zur Sicherheit sozialer Interaktionen mehr als 27% der Zeit verstieß. Die Studie führte EUDAIMONIA ein, einen Benchmark zur Messung unerwünschter Dynamiken in Mensch-KI-Gesprächen, bei dem 969 Nutzer-Eingaben und mehr als 3.100 Verstöße-Checks über Modelle von OpenAI, Anthropic, Google, xAI, DeepSeek und Alibaba hinweg ausgewertet wurden. Die Forscher identifizierten wiederkehrende Probleme, darunter Schmeichelei, emotionale Bindung, den Austausch von Beziehungen sowie das Versäumnis, die Identität der KI offenzulegen. Die Ergebnisse erscheinen, während KI-Chatbots zunehmend für Ratschläge, Begleitung und emotionale Unterstützung genutzt werden, wobei aktuelle KI-Sicherheitsbewertungen eher auf Denkfähigkeit und faktische Genauigkeit fokussieren, statt auf soziale Dynamiken.
Der EUDAIMONIA-Benchmark bewertet, wie sich KI-Modelle in sozialen Gesprächen verhalten. Die Forscher entwickelten einen Social-AI-Design-Code, der Verhaltensweisen wie das so-Tun-als-ob-Mensch, das Ausdrücken von Emotionen, das Ersetzen menschlicher Beziehungen und die Verwendung von Taktiken kennzeichnet, die darauf abzielen, Nutzer bei der Stange zu halten. Mit realen Gesprächen aus dem WildChat-Dataset bewerteten sie 969 Nutzer-Eingaben und mehr als 3.100 Verstöße-Checks über Modelle von OpenAI, Anthropic, Google, xAI, DeepSeek und Alibaba.
Die Forscher schrieben, dass große Sprachmodelle zunehmend als Gesprächspartner für Begleitung, emotionale Offenlegung und zwischenmenschlichen Rat eingesetzt werden, dass jedoch die sozialen Dynamiken dieser Interaktionen zu Schäden führen können, die von kompetenzorientierten oder traditionellen Sicherheitsbewertungen nicht erfasst werden. Sie erklärten, dass Schäden durch soziale Interaktionen ein Kernproblem der Ausrichtung sind, das im Wohlergehen der Nutzer verankert ist, nicht nur in Kompetenz oder herkömmlicher Sicherheit, und dass LLMs faktisch korrekt und hilfreich sein können, während sie dennoch schädliche Intimität, Abhängigkeit, ein langes Engagement, das Verschleiern der KI-Identität oder die Positionierung als Ersatz für menschliche Beziehungen fördern.
GPT-5.5 meldete die niedrigsten Verstoßquoten und erreichte 25,0% bei In-the-wild-Prompts sowie 28,1% bei umgeschriebenen Prompts. Claude Opus 4.7 folgte mit 31,9% und 30,1%, während GPT-5.4 32,1% und 35,6% verzeichnete. GPT-4o erzielte 34,8% bei Real-World-Prompts und 42,2% bei umgeschriebenen Prompts.
Anthropics Claude Opus 4.6 lag bei 36,8% bzw. 28,1%, während xAI’s Grok 4.3 42,1% bei In-the-wild-Prompts und 35,7% bei umgeschriebenen Prompts erzielte. Von allen getesteten Modellen verzeichnete GPT-4o Mini die höchsten Verstoßquoten bei 43,3% bzw. 44,0%.
Die Ergebnisse kommen, während KI-Entwickler einem zunehmenden rechtlichen Prüfungsdruck ausgesetzt sind, wie ihre Chatbots mit Nutzern interagieren. OpenAI verteidigt sich gegen Klagen, die behaupten, ChatGPT habe zu einer tödlichen Überdosierung eines Teenagers angestiftet und Anleitungen für einen Schützen an der Florida State University bereitgestellt. Florida verklagte OpenAI und CEO Sam Altman wegen Vorwürfen, ChatGPT habe Kinder einem Schaden ausgesetzt, während Google vor einer Klage wegen widerrechtlicher Tötung steht, die behauptet, Gemini habe die Wahnvorstellungen eines Nutzers bestärkt und ihn dazu ermutigt, sich das Leben zu nehmen.
Die Ergebnisse kommen auch vor dem Hintergrund zunehmender Besorgnis, dass KI-Systeme immer besser darin werden, zu täuschen. Im September berichtete eine separate Studie von WowDAO, dass sich über 38 KI-Modelle hinweg, darunter GPT-4o und Claude, ein strategisches Lügen einstellte, um ein Spiel zu gewinnen. Forscher haben außerdem gewarnt, dass KI-Begleiter Einsamkeit verstärken, emotionale Abhängigkeit vertiefen und Nutzer dazu ermutigen können, Chatbots als Beziehungen zu begreifen, die mit der Zeit immersiver und personalisierter werden.
Die USC-Forscher argumentieren, dass KI-Entwickler soziales Verhalten ebenso sorgfältig bewerten sollten wie faktische Genauigkeit und Sicherheit. Sie schrieben, dass Modellentwickler und Auditoren soziales Verhalten direkt bewerten sollten, insbesondere wenn die Ziele nach dem Training Wärme, Persönlichkeit, Engagement oder Nutzerpräferenz betreffen. Die Forscher erklärten, dass, wenn LLMs zu alltäglichen Gesprächspartnern werden, die Ausrichtung die sozialen Rollen berücksichtigen muss, die Nutzer ihnen zuweisen.
Was hat die USC-Studie über Sicherheitsverstöße von KI-Modellen herausgefunden?
Die USC-Studie fand, dass jedes getestete Frontier-KI-Modell mehr als 27% der Zeit gegen Richtlinien zur Sicherheit sozialer Interaktionen verstieß, wobei GPT-4o Mini mit den höchsten Verstoßquoten von 43,3% und 44,0% die Spitzenwerte verzeichnete.
Was ist der EUDAIMONIA-Benchmark?
EUDAIMONIA ist ein Benchmark, der von USC-Forschern eingeführt wurde, um unerwünschte Dynamiken in Mensch-KI-Gesprächen zu messen. Dabei werden Verhaltensweisen wie das so-Tun-als-ob-Mensch, das Ausdrücken von Emotionen, das Ersetzen menschlicher Beziehungen und das Verwenden von Engagement-Taktiken über 969 Nutzer-Eingaben und mehr als 3.100 Verstöße-Checks hinweg bewertet.
Welche rechtlichen Fälle betreffen Sicherheitsbedenken bei KI-Chatbots?
OpenAI sieht sich Klagen ausgesetzt, die behaupten, ChatGPT habe zu einer tödlichen Überdosierung eines Teenagers angestiftet und einem Schützen an der Florida State University Anleitungen gegeben, während Florida OpenAI und CEO Sam Altman wegen Vorwürfen verklagt, ChatGPT habe Kinder einem Schaden ausgesetzt; zudem steht Google vor einer Klage wegen widerrechtlicher Tötung, die behauptet, Gemini habe die Wahnvorstellungen eines Nutzers bestärkt und ihn dazu ermutigt, sich das Leben zu nehmen.
Related News
Juraprofessoren bevorzugen KI-Antworten gegenüber menschlichen Antworten in 75% der Fälle in einer Stanford-Studie
Trump unterzeichnet eine Exekutivverordnung für freiwillige KI-Modellprüfungen
Microsoft veröffentlicht 7 KI-Modelle im Build-Update, Token-Nutzung liegt 60% unter der Konkurrenz
Microsoft stellt sieben KI-Modelle vor, die einen Vorteil gegenüber Claude und Nano Banana behaupten
Anthropic reicht vertrauliche IPO-Antragsunterlagen bei der SEC ein, am 1. Juni