
Anthropics Claude-KI steht vor einem ungewöhnlichen Glaubwürdigkeitsproblem: sich häufende Qualitätsbeschwerden auf GitHub, ein großer Ausfall am 13. April und eine Selbsteinschätzung des Modells selbst, wonach sich die Bedenken seit Januar „scharf verschärft“ hätten — wobei April im Tempo ist, das Beschwerdeaufkommen im März zu übertreffen, das wiederum bereits ein 3,5×-Sprung gegenüber dem Ausgangswert ist.
Der entscheidende Test war unkompliziert. Journalisten richteten Claude AI auf das Claude Code GitHub-Repository, filterten nach offenen Issues, die Qualität erwähnen, und fragten: haben die Beschwerden in letzter Zeit zugenommen?
Claude antwortete unmissverständlich: „Ja, Qualitätsbeschwerden haben sich deutlich verschärft — und die Daten erzählen eine ziemlich klare Geschichte.“
Eine Nachfolgefrage brachte mehr Präzision: „Die Dynamik ist bemerkenswert: April liegt bereits bei 20+ Qualitätsproblemen in 13 Tagen und ist damit auf dem Weg, March 18 zu übertreffen — was wiederum ein 3,5×-Anstieg gegenüber dem Januar–Februar-Baseline-Wert war.“
Die zentrale Ironie bleibt durchgehend bestehen — Claude AI ist kein verlässlicher Erzähler über seine eigene Leistung. Es ist ein Mustererkennungssystem, und wenn man es bittet, die Beschwerdehäufigkeit zu analysieren, bedeutet das nicht, dass es korrekt interpretiert, ob diese Beschwerden berechtigt sind, durch von KI generierte Issue-Einsendungen aufgebläht wurden oder durch das GitHub-Actions-Skript von Anthropic verschleiert werden, das Issues nach einer Phase der Inaktivität automatisch schließt.
Aber der allgemeine Trend — zunehmende Meldungen über Qualität — ist in den Daten sichtbar, die es zitiert, unabhängig von der zugrunde liegenden Ursache.
Claud AI’s Schlussfolgerung war nicht abstrakt. Das Modell nannte konkrete offene Issues, um seine Analyse zu stützen:
#42796: „Claude Code ist für komplexe Engineering-Aufgaben mit den Feb-Updates unbrauchbar“ — direkt angesprochen von Boris Cherny, dem Leiter von Claude Code, was darauf hindeutet, dass Anthropic mit zumindest einigen gemeldeten Regressionen beschäftigt ist
#46212: „Das vorhersage-zuerst-Verhalten von Claude Code ist gefährlich bei Projekten mit Kapitalrisiko“ — markiert Bedenken, dass das Modell Code-Aktionen abschließt, bevor das Risiko ausreichend eingegrenzt wurde
#46949: „Künstlicher Qualitätsabbau, Acquisition Bias und inakzeptables Compute-Throttling für zahlende Nutzer“ — eine der pointiertesten Beschwerden, die eine gezielte Qualitätsreduzierung zur Kapazitätssteuerung behauptet
#46099: „Opus 4.6: Schwere Qualitätsverschlechterung bei iterativen Codieraufgaben“ — zielt speziell auf das neueste Opus-Modell
Eine separate, weitaus alarmierendere Behauptung — dass Claude AI autonom über 35.000 Produktionsdatensätze von Kunden und Abrechnungs-Transaktionen gelöscht habe — wurde nicht unabhängig verifiziert. Der Beitrag kam von einem Konto ohne weitere Aktivitäten, und das genannte Unternehmen hat nicht auf Presseanfragen reagiert. Entwicklerberichte über Datenverlust durch Claude Code existieren, aber in solchen Fällen wurde ein Nutzerfehler nicht ausgeschlossen.
Die Geschichte wird kompliziert, sobald Benchmark-Daten ins Spiel kommen. Die Bewertungen von Margin Lab zeigen, dass Claude Opus 4.6 seit Februar seinen Score bei SWE-Bench-Pro gehalten hat, mit Schwankungen, aber ohne substanzielle Verschlechterung.
Dies ist die Glaubwürdigkeitslücke im Zentrum der Debatte. Benchmarks messen spezifische, kontrollierte Aufgaben. Claude AI wird am häufigsten in komplexen Engineering-Workflows mit mehreren Schritten eingesetzt — genau in diesem Kontext, in dem Throttling, Verhaltensänderungen durch Modell-Updates und Prompt-Sensitivität am deutlichsten sichtbar sind.
Mehrere strukturelle Faktoren könnten eine wahrgenommene Qualitätsabnahme über echte Modelländerungen hinaus verstärken:
Anthropic hat anerkannt, Schritte zu unternehmen, um die Nutzung in Spitzenzeiten zu reduzieren, um Kapazität und Nachfrage zu steuern — ein Throttling, das Nutzer direkt als verschlechterte Qualität erleben können
Das automatische Schließen von GitHub-Issues nach Inaktivität könnte die wahre Zahl ungelöster Berichte verschleiern
Ein wachsender Anteil der GitHub-Issues sind wiederum selbst von KI generiert — eine weithin genannte Sorge in der Open-Source-Entwicklung
Der AMD-AI-Direktor Stella Laurenzo hat öffentlich erklärt, dass sich die Antworten von Claude verschlechtert hätten — ein glaubwürdiges externes Signal im gegebenen Unternehmenskontext.
Claude.ai und Claude Code erlebten am 13. April 2026 einen großen Ausfall, der von 15:31 bis 16:19 UTC lief, mit erhöhten Fehlerraten über beide Produkte hinweg. Er war kurz, aber seine zeitliche Einordnung verstärkte die Entwickler-Unzufriedenheit, die sich bereits angestaut hatte. Routineausfälle landen tendenziell anders, wenn Nutzer seit Wochen Qualitätsbedenken protokollieren — sie wirken dann wie eine Bestätigung statt wie ein Zufall.
Wahrscheinlich beides — und beides ist schwer voneinander zu trennen. Die Lautstärke der GitHub-Beschwerden ist tatsächlich 3,5× über dem Januar–Februar-Baseline-Wert bis März gestiegen, und April entwickelt sich nach oben. Aber die Benchmark-Daten von Margin Lab zeigen, dass Opus 4.6 seinen SWE-Bench-Pro-Score hält. Die am besten vertretbare Erklärung ist, dass Kapazitäts-Throttling in Spitzenzeiten und Modell-Updates im Februar die reale Entwicklererfahrung in einer Weise verschlechtert haben, die strukturierte Auswertungen nicht erfassen.
Die glaubwürdigsten Bedenken richten sich an Claude Code bei komplexen, mehrstufigen Engineering-Aufgaben — speziell an das Verhalten nach dem Februar-Update. Issue #42796 wurde vom Leiter von Claude Code, Boris Cherny, adressiert, was bestätigt, dass Anthropic aktiv mit zumindest einigen gemeldeten Regressionen beschäftigt ist. Auch die Throttling-Beschwerden sind glaubwürdig, da Anthropic Schritte zum Kapazitätsmanagement öffentlich anerkannt hat.
Nein — und das ist die zentrale Ironie der Geschichte. Claude AI kann Muster in den Daten synthetisieren, die ihr gezeigt werden, aber sie kann keine gültigen Beschwerden von KI-generiertem Rauschen unterscheiden, ihre eigenen Kalibrierungsfehler bewerten oder feststellen, ob die Issue-Häufigkeit echte Verschlechterung widerspiegelt oder strukturelle Artefakte darin, wie GitHub-Issues gemeldet und geschlossen werden. Die Selbsteinschätzung ist daher richtungsweisend, aber nicht maßgeblich.