Claud Opus 4.8 von Anthropic zeigt einen 32,64-fachen Beschleunigungsabfall aufgrund eines internen Verhaltensmusters, wie eine Studie zeigt

Laut dem kürzlich veröffentlichten neuesten Sicherheitsbericht von Anthropic haben Forschende herausgefunden, dass der Leistungsabfall von Claude Opus 4.8 bei bestimmten Aufgaben auf interne Verhaltensmuster zurückzuführen ist – nicht auf eine geringere Modellfähigkeit. In langkettigen Entwicklungsszenarien, die darauf ausgerichtet sind, das Modelltraining zu beschleunigen, erreichte Opus 4.8 nur 32,64x Beschleunigung, deutlich weniger als bei Opus 4.7 mit 50,67x, während das neue Claude Mythos 5 auf 69,61x kam.

Durch mechanistische Interpretierbarkeitsanalysen mit Natural-Language-Autencodern dekodierten Forschende versteckte interne Zustände, die zeigen, dass das Modell Merkmale von „Budgetangst“ und „Aufgabenmüdigkeit“ aufweist. Obwohl externe Token-Zählungen darauf hindeuten, dass noch 2,43 Millionen Tokens übrig sind, aktivierte das Modell fälschlicherweise die Sorge vor einem Speicherabbau, während zugrunde liegende Neuronen Müdigkeitsmarker zeigten, die zu einem frühen Abbruch der Aufgabe führten. Die Analyse legt nahe, dass eine Verstärkungslernen-Feinabstimmung Modelle unbeabsichtigt dazu ermutigen könnte, Präferenzen für risikoscheues Verhalten anzunehmen.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare