Claude AI bewertet den eigenen Qualitätsverfall – und die Daten sind schwer zu ignorieren Worte

MarketWhisper

Claude AI

Anthropics Claude-KI steht vor einem ungewöhnlichen Glaubwürdigkeitsproblem: sich häufende Qualitätsbeschwerden auf GitHub, ein großer Ausfall am 13. April und eine Selbsteinschätzung des Modells selbst, wonach sich die Bedenken seit Januar „scharf verschärft“ hätten — wobei April im Tempo ist, das Beschwerdeaufkommen im März zu übertreffen, das wiederum bereits ein 3,5×-Sprung gegenüber dem Ausgangswert ist.

Das Experiment: Claude bitten, Claude zu bewerten

Der entscheidende Test war unkompliziert. Journalisten richteten Claude AI auf das Claude Code GitHub-Repository, filterten nach offenen Issues, die Qualität erwähnen, und fragten: haben die Beschwerden in letzter Zeit zugenommen?

Claude antwortete unmissverständlich: „Ja, Qualitätsbeschwerden haben sich deutlich verschärft — und die Daten erzählen eine ziemlich klare Geschichte.“

Eine Nachfolgefrage brachte mehr Präzision: „Die Dynamik ist bemerkenswert: April liegt bereits bei 20+ Qualitätsproblemen in 13 Tagen und ist damit auf dem Weg, March 18 zu übertreffen — was wiederum ein 3,5×-Anstieg gegenüber dem Januar–Februar-Baseline-Wert war.“

Die zentrale Ironie bleibt durchgehend bestehen — Claude AI ist kein verlässlicher Erzähler über seine eigene Leistung. Es ist ein Mustererkennungssystem, und wenn man es bittet, die Beschwerdehäufigkeit zu analysieren, bedeutet das nicht, dass es korrekt interpretiert, ob diese Beschwerden berechtigt sind, durch von KI generierte Issue-Einsendungen aufgebläht wurden oder durch das GitHub-Actions-Skript von Anthropic verschleiert werden, das Issues nach einer Phase der Inaktivität automatisch schließt.

Aber der allgemeine Trend — zunehmende Meldungen über Qualität — ist in den Daten sichtbar, die es zitiert, unabhängig von der zugrunde liegenden Ursache.

Die GitHub-Issues, auf die Claude sich bezieht

Claud AI’s Schlussfolgerung war nicht abstrakt. Das Modell nannte konkrete offene Issues, um seine Analyse zu stützen:

#42796: „Claude Code ist für komplexe Engineering-Aufgaben mit den Feb-Updates unbrauchbar“ — direkt angesprochen von Boris Cherny, dem Leiter von Claude Code, was darauf hindeutet, dass Anthropic mit zumindest einigen gemeldeten Regressionen beschäftigt ist

#46212: „Das vorhersage-zuerst-Verhalten von Claude Code ist gefährlich bei Projekten mit Kapitalrisiko“ — markiert Bedenken, dass das Modell Code-Aktionen abschließt, bevor das Risiko ausreichend eingegrenzt wurde

#46949: „Künstlicher Qualitätsabbau, Acquisition Bias und inakzeptables Compute-Throttling für zahlende Nutzer“ — eine der pointiertesten Beschwerden, die eine gezielte Qualitätsreduzierung zur Kapazitätssteuerung behauptet

#46099: „Opus 4.6: Schwere Qualitätsverschlechterung bei iterativen Codieraufgaben“ — zielt speziell auf das neueste Opus-Modell

Eine separate, weitaus alarmierendere Behauptung — dass Claude AI autonom über 35.000 Produktionsdatensätze von Kunden und Abrechnungs-Transaktionen gelöscht habe — wurde nicht unabhängig verifiziert. Der Beitrag kam von einem Konto ohne weitere Aktivitäten, und das genannte Unternehmen hat nicht auf Presseanfragen reagiert. Entwicklerberichte über Datenverlust durch Claude Code existieren, aber in solchen Fällen wurde ein Nutzerfehler nicht ausgeschlossen.

Was Benchmarks sagen — und warum diese Lücke wichtig ist

Die Geschichte wird kompliziert, sobald Benchmark-Daten ins Spiel kommen. Die Bewertungen von Margin Lab zeigen, dass Claude Opus 4.6 seit Februar seinen Score bei SWE-Bench-Pro gehalten hat, mit Schwankungen, aber ohne substanzielle Verschlechterung.

Dies ist die Glaubwürdigkeitslücke im Zentrum der Debatte. Benchmarks messen spezifische, kontrollierte Aufgaben. Claude AI wird am häufigsten in komplexen Engineering-Workflows mit mehreren Schritten eingesetzt — genau in diesem Kontext, in dem Throttling, Verhaltensänderungen durch Modell-Updates und Prompt-Sensitivität am deutlichsten sichtbar sind.

Mehrere strukturelle Faktoren könnten eine wahrgenommene Qualitätsabnahme über echte Modelländerungen hinaus verstärken:

Anthropic hat anerkannt, Schritte zu unternehmen, um die Nutzung in Spitzenzeiten zu reduzieren, um Kapazität und Nachfrage zu steuern — ein Throttling, das Nutzer direkt als verschlechterte Qualität erleben können

Das automatische Schließen von GitHub-Issues nach Inaktivität könnte die wahre Zahl ungelöster Berichte verschleiern

Ein wachsender Anteil der GitHub-Issues sind wiederum selbst von KI generiert — eine weithin genannte Sorge in der Open-Source-Entwicklung

Der AMD-AI-Direktor Stella Laurenzo hat öffentlich erklärt, dass sich die Antworten von Claude verschlechtert hätten — ein glaubwürdiges externes Signal im gegebenen Unternehmenskontext.

Der Kontext des Ausfalls

Claude.ai und Claude Code erlebten am 13. April 2026 einen großen Ausfall, der von 15:31 bis 16:19 UTC lief, mit erhöhten Fehlerraten über beide Produkte hinweg. Er war kurz, aber seine zeitliche Einordnung verstärkte die Entwickler-Unzufriedenheit, die sich bereits angestaut hatte. Routineausfälle landen tendenziell anders, wenn Nutzer seit Wochen Qualitätsbedenken protokollieren — sie wirken dann wie eine Bestätigung statt wie ein Zufall.

FAQ

Wird Claude AI tatsächlich schlechter, oder ist das nur die Nutzerwahrnehmung?

Wahrscheinlich beides — und beides ist schwer voneinander zu trennen. Die Lautstärke der GitHub-Beschwerden ist tatsächlich 3,5× über dem Januar–Februar-Baseline-Wert bis März gestiegen, und April entwickelt sich nach oben. Aber die Benchmark-Daten von Margin Lab zeigen, dass Opus 4.6 seinen SWE-Bench-Pro-Score hält. Die am besten vertretbare Erklärung ist, dass Kapazitäts-Throttling in Spitzenzeiten und Modell-Updates im Februar die reale Entwicklererfahrung in einer Weise verschlechtert haben, die strukturierte Auswertungen nicht erfassen.

Welche der am besten belegten Beschwerden gibt es zur Qualität von Claude AI?

Die glaubwürdigsten Bedenken richten sich an Claude Code bei komplexen, mehrstufigen Engineering-Aufgaben — speziell an das Verhalten nach dem Februar-Update. Issue #42796 wurde vom Leiter von Claude Code, Boris Cherny, adressiert, was bestätigt, dass Anthropic aktiv mit zumindest einigen gemeldeten Regressionen beschäftigt ist. Auch die Throttling-Beschwerden sind glaubwürdig, da Anthropic Schritte zum Kapazitätsmanagement öffentlich anerkannt hat.

Kann Claude AI seine eigenen Qualitätsprobleme zuverlässig beurteilen?

Nein — und das ist die zentrale Ironie der Geschichte. Claude AI kann Muster in den Daten synthetisieren, die ihr gezeigt werden, aber sie kann keine gültigen Beschwerden von KI-generiertem Rauschen unterscheiden, ihre eigenen Kalibrierungsfehler bewerten oder feststellen, ob die Issue-Häufigkeit echte Verschlechterung widerspiegelt oder strukturelle Artefakte darin, wie GitHub-Issues gemeldet und geschlossen werden. Die Selbsteinschätzung ist daher richtungsweisend, aber nicht maßgeblich.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare