Anthropic deckt Claude Code drei Bugs auf: Rückgang der Inferenzleistung, Cache-Vergessen und ein 25-Zeichen-Befehl, der sich rächt

ChainNewsAbmedia

Anthropic veröffentlichte am 23.04. die Qualitäts-Unfallanalyse zu Claude Code und räumte öffentlich ein, dass drei sich überlagernde technische Fehler in den vergangenen nahezu zwei Monaten die Nutzung der Claude Code-Qualität verschlechtert haben; zugleich betroffen ist auch das Claude Agent SDK und Claude Cowork. Das Unternehmen gab an: „Wir legen großen Wert auf das Feedback zu Modellverschlechterungen; wir haben die Modellfähigkeiten niemals absichtlich reduziert“, und setzte am 23.04. für alle Abonnenten die Nutzungsobergrenzen als Entschädigung zurück.

Dreier-Bugs-Zeitachse und technische Hauptursachen

Problem Wirksamkeitszeitraum Grundursache Behebungs-Version Schlussfolgerungsbudget- Degradierung 3/4–4/7 reasoning effort Standard von high auf medium herabgestuft, Nutzer empfinden das Modell als „dümmer“ 4/7 Rückroll Cache-Reinigungs-Bug 3/26–4/10 Session Thinking- Cache wird bei Inaktivität von über 1 Stunde geleert Der Cache wird bei jeder Runde geleert, nicht nur einmal v2.1.101 knapper Prompt-Rückschlag 4/16–4/20 neue „Zwischen Textausgaben von Tool-Aufrufen ≤25 Zeichen“-Systemanweisung, ablation zeigt einen Rückgang der Gesamtintelligenz um 3% v2.1.116

Schlussfolgerungs-Degradierung: Die Kosten für die Latenzverringerung

3/4 Anthropic stellte das reasoning effort für Claude Code standardmäßig von high auf medium um, mit dem Ziel, die Antwortlatenz zu verkürzen. Aber durch diese Änderung fühlt sich das Modell bei Code-Schlussfolgerungen und Debugging-Aufgaben „dümmer“ an. Nach dem Rollback am 4/7 ist bei Opus 4.7 standardmäßig xhigh aktiv, andere Modelle bleiben bei high. Das Unternehmen räumte ein: Interne Bewertungen vor der Änderung konnten diese Verschlechterung nicht erkennen.

Cache-Reinigungs-Bug: Versteckter Fehler an den Systemgrenzen

3/26 führte Anthropic prompt caching-Optimierungen für Sessions ein, die länger als eine Stunde inaktiv sind. Das ursprüngliche Design war „lösche den thinking-Cache einmal, wenn die Inaktivität eine Stunde erreicht“, aber in der Umsetzung wurde daraus „nach der Inaktivierung wird in jeder Runde geleert“. Das führte dazu, dass Claude in langen Sessions „vergesslich, wiederholend“ auftritt, und dass bei jedem cache miss die Nutzungsmenge der Nutzer schnell aufgebraucht wird. Anthropic wies darauf hin, dass dieser Bug „in der Schnittmenge aus Kontextverwaltung von Claude Code, Anthropic API und extended thinking“ existiert; er betrifft mehrere Systemgrenzen und ist eine implizite Fehlfunktion, die sich schwer mit Unit-Tests erfassen lässt. Die Reparatur wurde am 4/10 mit v2.1.101 veröffentlicht.

25-Zeichen-kurze Anweisung: Ab einem ablation-Vergleich zeigt sich ein Rückgang der Intelligenz um 3%

4/16 fügte Anthropic eine Systemanweisung hinzu: „Der Textoutput zwischen Tool-Aufrufen bleibt innerhalb von 25 Zeichen“. Der ursprüngliche Zweck war, die ausführlichen Erklärungen des Modells zu reduzieren und die Erfahrung sauberer zu machen. Zu diesem Zeitpunkt fanden die internen Tests keine Verschlechterung, doch nach einem strengeren ablation-gesteuerten Vergleichsexperiment stellte das Unternehmen fest, dass diese Anweisung bei beiden Modellen Opus 4.6 und 4.7 eine Gesamtintelligenz-Verringerung von etwa 3% verursacht. Am 4/20 wurde auf v2.1.116 zurückgerollt. Dieses Ereignis verdeutlicht: Schon die minimale Formulierung einer system prompt kann unbeabsichtigte strukturelle Auswirkungen auf das Modellverhalten haben.

Ausmaß der Auswirkungen

Produkt-Ebene: Claude Code (alle drei Probleme sind betroffen), Claude Agent SDK (①②), Claude Cowork (alle)

Model-Ebene: Sonnet 4.6, Opus 4.6, Opus 4.7

API-Basisinfrastruktur: nicht betroffen

Auf der Ebene der Nutzererfahrung zeigt sich das so: sinkende Antwortqualität und „Intelligenz“, steigende Latenz, Verlust von conversation context in der Mitte sowie schnellerer Verbrauch der Nutzungsmenge als erwartet.

Entschädigung und Prozessverbesserungen

Anthropic setzte am 4/23 für alle Abonnenten die Nutzungsobergrenzen als direkte Entschädigung zurück. Die parallel zugesagten Prozessverbesserungen umfassen:

Umsetzung eines breiteren Evaluations-Sets (evaluation suite) für Änderungen am system prompt

Verbesserung des Code-Review-Tools zur frühzeitigen Erkennung von Regressionen

Standardisierung der internen Teststandards als öffentliches build, um eine Abweichung zwischen „internen Versionen“ und „externen Versionen“ zu vermeiden

Für Änderungen, die die Modellintelligenz möglicherweise beeinflussen, einführen von soak period und schrittweiser rollout

Lehren für Nutzer

Für Nutzer, die sich auf Claude Code für die tägliche Entwicklung und Forschung stützen, hat dieses Postmortem drei Kernpunkte zum Mitnehmen: Erstens, wenn du zwischen Mitte März und dem 20. April gespürt hast, dass das Claude-Modell „dümmer“ wurde, oder wenn Claude Code bei langen Sessions ungewöhnlich vergesslich war, dann ist das nicht deine Einbildung oder eine unpassende prompt; zweitens können Nutzer, deren Nutzungsobergrenze in dieser Zeit schnell aufgefressen wurde, nach dem 4/23 prüfen, ob Anthropic die Zurücksetzung automatisch durchgeführt hat; drittens kann selbst eine prompt-Feinjustierung von „innerhalb von 25 Zeichen“ systemische Auswirkungen auf das globale Modellverhalten haben – ein gemeinsames Risiko im Engineering von LLM-Produkten.

Im Vergleich zu Wettbewerbern, die bei Vorwürfen zur Modellverschlechterung häufig mit Schweigen oder „das ist ein Fehlbedienungsproblem des Nutzers“ reagieren, setzen Anthropic durch diese proaktive Offenlegung und technische Transparenz diesmal einen beachtenswerten Referenzmaßstab für die Unfallanalyse eines KI-Produkts.

Dieser Artikel: Anthropic enthüllt selbst die drei Bug-Kombinationen in Claude Code – Schlussfolgerungs-Degradierung, Cache-Vergessen, 25-Zeichen-Anweisungs-Rückschlag Erstmals erschienen in 鏈新聞 ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare