Anthropic ersetzt Claudes Fable 5 unsichtbare Schutzvorkehrungen durch sichtbare Fallbacks

Anthropic hat diese Woche eingeräumt, dass unsichtbare Schutzmaßnahmen in seinem Claude Fable 5-Modell „der falsche Kompromiss“ waren, und angekündigt, sie durch sichtbare Fallbacks für Claude Opus 4.8 zu ersetzen, beginnend diese Woche. Das Unternehmen sah sich mit Gegenreaktionen konfrontiert, nachdem es Claude Fable 5 auf den Markt gebracht hatte, das erste aus seiner neuen Mythos-Klasse, wobei eine Schutzmaßnahme in dessen 319-seitiger System Card vergraben war, die Antworten für Nutzer, bei denen der Verdacht bestand, konkurrierende KI-Modelle zu bauen, heimlich verschlechterte. Die Kontroverse brach aus, nachdem das KI-Forschungsunternehmen SemiAnalysis am 9. Juni 2026 öffentlich berichtete, dass deren GPU-Inferenzforschung als auffällig markiert worden sei, und Anthropic am 11. Juni 2026 auf X eine Entschuldigung veröffentlichte. Die unsichtbare Schutzmaßnahme funktionierte anders als die bestehenden sichtbaren Schutzmechanismen des Modells für Cybersicherheit- und Biologie-Forschung, die Nutzer benachrichtigten, sobald Anfragen auf das ältere Opus 4.8-Modell umgeleitet wurden.

Anthropic kündigt ein sichtbares Fallback-System für markierte Anfragen an

Ab dieser Woche werden markierte Anfragen sichtbar zu Claude Opus 4.8 geroutet, statt stillschweigend Fable-Ausgaben mit Verschlechterung zu liefern. API-Nutzer erhalten eine angegebene Begründung, wenn eine Anfrage abgelehnt wird. Anthropic sagte, dass serverseitige Fallback-Benachrichtigungen in den nächsten Tagen ausgerollt würden. Das Unternehmen postete auf X: „Unsichtbare Schutzmaßnahmen lassen sich gezielter angreifen, sodass wir schnell liefern können, mit sehr wenigen False Positives. Wir haben uns für unsichtbare Schutzmaßnahmen aus diesem Grund entschieden — und das war der falsche Kompromiss. Du solltest Sichtbarkeit dafür haben, welche Schutzmaßnahmen wir einsetzen, und warum. Es tut uns leid, dass wir das Gleichgewicht nicht richtig hinbekommen haben.“

Claude Fable 5 nutzte ursprünglich eine stille Verschlechterung der Antworten

Die Schutzmaßnahme für die LLM-Entwicklung erkannte, wenn Nutzer an Vortrainings- KI-Systemen arbeiteten, verteilte Trainingsinfrastruktur aufbauten oder maschinelles Lernen-Chips entwarfen. Das Modell veränderte sein eigenes Verhalten stillschweigend durch Prompt-Modifikation, Steering Vectors oder Parameter-Tweaks, um eine schlechtere Antwort zu liefern, ohne eine Benachrichtigung. Nutzer erhielten zwar eine Antwort, aber nicht von dem Fable 5, für das sie bezahlt hatten. Claude Fable 5 hatte bereits sichtbare Schutzmaßnahmen für Cybersicherheit- und Biologie-Forschung, die Nutzer benachrichtigten, wenn Anfragen auf das ältere Opus 4.8-Modell umgeleitet wurden. Probleme mit der Präzision des Klassifikators führten dazu, dass legitime Arbeiten im Bereich maschinelles Lernen fälschlich als auffällig markiert wurden, wodurch Reproduzierbarkeitsprobleme für KI-Forscher entstanden, die keine Möglichkeit hatten zu wissen, dass ihre Ergebnisse kontaminiert waren.

Neues System routet markierte Anfragen zu Claude Opus 4.8

Markierte Anfragen werden nun sichtbar auf Opus 4.8 zurückfallen, ähnlich wie die Schutzmaßnahmen des Unternehmens für Cyber- und Bio-Forschung. Nutzer sehen diese Benachrichtigung bei jedem Vorfall. In der API liefert jede markierte Anfrage einen Grund für die Ablehnung zurück, statt stillschweigend eine verschlechterte Antwort zu übermitteln. Anthropic übernimmt die gleichen Änderungen für seine Biologie- und Cybersicherheit-Klassifikatoren, die Beschwerden darüber ausgelöst hatten, dass harmlose Forschungs-Prompts markiert wurden.

Anthropic räumt erhöhte False Positives durch sichtbare Schutzmaßnahmen ein

Anthropic gab den Kompromiss, den es akzeptiert, direkt zu: Wenn Schutzmaßnahmen sichtbar sind, lassen sie sich leichter umgehen, was bedeutet, dass der Klassifikator ein breiteres Netz ziehen muss, um weiterhin effektiv zu bleiben. Mehr False Positives — legitime Machine-Learning-Arbeit, die erwischt und umgeroutet wird — kommen währenddessen, während das Unternehmen seine Systeme nachjustiert. Anthropic sagte, es arbeite daran, „so schnell wie möglich“ False Positives zu reduzieren, nannte jedoch keinen Zeitplan. Fable 5 bleibt auf Pro-, Max-, Team- und Enterprise-Plänen bis zum 22. Juni kostenlos, danach wechselt es zu reinen API-Nutzungsguthaben.

FAQ

Was hat Anthropic diese Woche an den Schutzmaßnahmen von Claude Fable 5 geändert?

Anthropic hat angekündigt, dass markierte Anfragen ab dieser Woche sichtbar zu Claude Opus 4.8 geroutet werden, statt stillschweigend eine verschlechterte Ausgabe zu liefern. API-Nutzer erhalten eine angegebene Begründung, wenn Anfragen abgelehnt werden, und serverseitige Fallback-Benachrichtigungen sollen in den nächsten Tagen ausgerollt werden.

Warum hat Anthropic sich für die ursprünglichen Schutzmaßnahmen von Claude Fable 5 entschuldigt?

Anthropic entschuldigte sich, weil die unsichtbaren Schutzmaßnahmen des Modells für die LLM-Entwicklung Antworten heimlich verschlechterten, ohne Nutzer zu benachrichtigen, was das Unternehmen als „der falsche Kompromiss“ einräumte. Die Schutzmaßnahme war in einer 319-seitigen System Card vergraben und verursachte Reproduzierbarkeitsprobleme für legitime KI-Forscher, die keine Möglichkeit hatten zu wissen, dass ihre Ergebnisse kontaminiert waren.

Wann endet der kostenlose Zugriff auf Claude Fable 5?

Fable 5 bleibt auf Pro-, Max-, Team- und Enterprise-Plänen bis zum 22. Juni kostenlos, danach wechselt es zu reinen API-Nutzungsguthaben.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare