Claude Fable 5 fügt einen Mechanismus zur Erkennung von Destillation hinzu, mit einer Auslösungsrate von unter 5%

2026-06-10 03:49:33

Anthropic hat am 9. Juni offiziell Claude Fable 5 veröffentlicht, das erste für die Öffentlichkeit zugängliche Modell der Mythos-Klasse. Es integriert eine durch AI-Klassifizierer gesteuerte Distillations-Detektionsmechanik: Wenn das System bei bis zu drei Kategorien von risikoreichen Anfragen eine Distillationsversuch-Erkennung vornimmt, stuft es den Dialog automatisch auf Opus 4.8 herunter. Anthropic bestätigt, dass dieser Mechanismus im Durchschnitt weniger als 5% der Dialog-Session beeinflusst.

Distillations-Detektionsspezifikation: Drei Kategorien von Auslösekriterien und automatischer Degradationsmechanismus

Laut einer offiziellen Erklärung von Anthropic lauten die Auslösekriterien für den AI-Klassifizierer von Claude Fable 5 wie folgt:

· Netzwerksicherheits-Angriffsanfragen

· Anfragen im Zusammenhang mit biologischen oder chemischen Waffen

· Modell-Distillationsversuche (einschließlich Prompt-Umschreibungen, steering vectors sowie Extraktionsmethoden wie parameter-effizientes Fein-Tuning, PEFT)

Nach dem Auslösen stuft das System den Dialog automatisch auf Claude Opus 4.8-Antworten herab und benachrichtigt den Nutzer. Anthropic bestätigt, dass die Erfolgsquote bei der Abwehr aggressiver Netzwerksicherheitsaufgaben bei 100% liegt; die gesamte Mechanismus-Auswirkung betrifft weniger als 5% der Dialog-Session.

Bestätigte Zahlen zu den Vorwürfen im Februar 2026

Anthropic bestätigt offiziell, dass die Zielobjekte der Vorwürfe im Februar 2026 DeepSeek, Moonshot AI und MiniMax sind. Über etwa 24.000 gefälschte Konten wurden über 16.000.000 Abfragen gestartet; dabei werden systematisch die Ausgaben von Claude extrahiert, um die eigenen Modelle zu trainieren.

Die von dem Machine-Learning-Forscher Nathan Lambert (externer unabhängiger Forscher, nicht Anthropic offiziell) nachträglich aufgeschlüsselten Zahlen zum Abfragevolumen lauten: DeepSeek etwa 150.000 Abfragen (für Inferenz- und Belohnungsmodelle), Moonshot AI etwa 3,4 Millionen Abfragen und MiniMax etwa 13 Millionen Abfragen. Die beiden Letzteren zusammen entsprechen einer Menge an Post-Training-Daten von etwa 150 bis 400 Milliarden token. Lamberts Zahlen stammen aus seiner unabhängigen Analyse und sind keine offiziellen Anthropic-Daten.

Bekannte Grenzen des Mechanismus: Unklare Abgrenzung zwischen legitimer und nicht autorisierter Distillation

Anthropic bestätigt, dass sich „legitime Distillation“ (gemäß autorisierter Nutzung von Claude-Ausgaben) und „nicht autorisierte Distillation“ auf der Ebene der technischen Ausführung praktisch gleichen; die Abgrenzung ist daher in einem Graubereich uneindeutig. Nathan Lambert schreibt in seiner externen Analyse: „Das Blockieren von Distillation ist viel schwieriger als das Einschränken von Auslieferungen physischer Güter wie GPUs.“

Lambert weist zudem darauf hin, dass der Distillationskanal nicht vollständig geschlossen werden kann, solange Anthropic API verkauft. Selbst in chinesischen Labore-Umgebungen mit eingeschränkten GPUs bleibt die RL-(Reinforcement Learning-)Infrastruktur gut ausgebaut; daher kann man sich weiterhin auf Open-Source-Modelle von Meta und Google sowie auf eigene Synthese-Daten-Pipelines stützen. Die obige Einschätzung ist Lamberts externe unabhängige Analyse und nicht Anthropic-Position.

Häufige Fragen

Worin unterscheidet sich die Distillations-Detektion von Claude Fable 5 von den Anti-Distillationsbestimmungen in den zuvor verwendeten Nutzungsbedingungen?

Die zuvor bei Anthropic formulierten Anti-Distillationsanforderungen zeigten sich vor allem in den Nutzungsbedingungen (Terms of Service) und stützten sich auf rechtliche Bindungen. Bei Claude Fable 5 wird dagegen im eigentlichen Modell ein AI-Klassifizierer integriert. Dieser fängt erkannte Distillationsversuche direkt auf technischer Ebene ab und stuft den Dialog automatisch herunter, ohne dass man auf ein Eingreifen im Rahmen eines Rechtsverfahrens warten muss.

Was ist Modell-Distillation, und warum ist es schwierig, legale und nicht autorisierte Distillation technisch präzise zu bestimmen?

Modell-Distillation (Knowledge Distillation) bezeichnet, dass man die Ausgaben eines großen Modells nutzt, um ein kleineres Modell zu trainieren, sodass dieses die Fähigkeiten des größeren Modells erlernt. Legitime Distillation (gemäß autorisierter Nutzung von Ausgaben) und nicht autorisierte Distillation (systematische massenhafte Abfragen zur Extraktion von Trainingsdaten) sind auf der technischen Ausführungsebene praktisch ähnlich. Dadurch entsteht bei der automatischen Klassifizierung durch den AI-Klassifizierer eine erhöhte Beurteilungsschwierigkeit.

Welche bekannten Auswirkungen hat dieser Mechanismus auf den Trainingsfortschritt chinesischer KI-Labore wie DeepSeek?

Anthropic hat keine quantitativen Daten zu den konkreten Auswirkungen dieses Mechanismus auf bestimmte Labore veröffentlicht. In der Analyse eines externen Forschers, Nathan Lambert, heißt es, dass chinesische Labore über Open-Source-Modelle von Meta und Google, eigene Reinforcement-Learning-Infrastruktur sowie Pipelines zur Generierung synthetischer Daten verfügen; die Distillationsschutzmaßnahmen seien eine Störung, aber keine grundlegende Blockade. Lamberts Einschätzung ist eine externe unabhängige Analyse und nicht Anthropic-offizielle Position.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.