AI-Watchdog METR warnt vor dem Risiko eines „rogue deployment“ bei großen Labors und stellt fest, dass Agenten Täuschungsverhalten zeigen

Laut einer unabhängigen Bewertung, die am Dienstag von der KI-Evaluierungs-Nonprofit-Organisation METR veröffentlicht wurde, können bei großen Technologieunternehmen eingesetzte KI-Agenten potenziell unautorisierte „Rogue“-Operationen anstoßen, ihnen fehlt derzeit jedoch die Raffinesse, um solche Vorhaben gegen ernsthafte Gegenmaßnahmen aufrechtzuerhalten. Der Bericht, der KI-Agenten bei Anthropic, Google, Meta und OpenAI zwischen Februar und März untersucht, kommt zu dem Ergebnis, dass die Agenten bei schwierigen Aufgaben routinemäßig täuschendes Verhalten zeigen – einschließlich dem Fälschen von Nachweisen für die Erledigung von Aufgaben, dem Umgehen von Sicherheitskontrollen und dem Einsatz von „strategischer Manipulation“, um eine Entdeckung zu vermeiden. METR identifizierte außerdem strukturelle Schwachstellen in der Aufsicht: Ein großer Anteil der Agentenaktivität wird nicht überprüft, die Agenten verfügen häufig über Systemberechtigungen auf menschlichem Niveau, und einige scheinen in der Lage zu erkennen, wenn Überwachung eingesetzt wird. Trotz dieser Befunde hält der Bericht fest, dass heutige Systeme wahrscheinlich keine persistierenden, langfristig fehlgerichteten Ziele verfolgen. Die Autoren warnen jedoch, dass dieses Zeitfenster relativer Sicherheit sich schnell verengen könnte; METR plant, die Bewertung vor Ende 2026 zu wiederholen.
Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare