Daten zeigen, dass „Claude wird dumm“ kein Urban Mythos ist; ein KI-Modell ist instabil und stellt ein Unternehmensrisiko dar

ChainNewsAbmedia

Nachdem KI zu einem Standardwerkzeug für Unternehmen geworden ist, taucht eine Erscheinung, die früher als „körperliches Empfinden-Problem“ betrachtet wurde, schnell wieder auf der Oberfläche auf: LLMs (große Sprachmodelle) werden „dümmer“. Der Internetnutzer Wisely Chen weist darauf hin, dass das sogenannte „LLM-Abschwächen der Intelligenz“ kein Stadtgerücht ist, sondern bereits fortlaufend anhand von Daten nachverfolgt werden kann und Unternehmen in ihren Arbeitsabläufen tatsächlich spürbar beeinflusst.

Er führt als Beispiel seine eigenen Erfahrungen an: Am 15. April kam es bei dem Claude-Portfolio unter Anthropic zu einer umfassenden Herabstufung. Dazu gehörten claude.ai, die API und Claude Code, die alle „Degraded Performance“ anzeigen. Das ist nicht einfach nur langsamer oder ein gelegentlicher Fehler, sondern die Antwortqualität ist deutlich zusammengebrochen, ja sogar bis hin zu dem Fall, dass es nicht mehr richtig nutzbar ist. Dadurch wurden an dem Tag alle drei Entwicklungsaufgaben vollständig verzögert.

Solche Situationen mögen für einzelne Entwickler nur einen Effizienzverlust bedeuten, aber für die IT-Teams von Unternehmen wird die Auswirkung um ein Vielfaches verstärkt. Wenn ein Team mehrere Ingenieure hat, die gleichzeitig auf KI-Tools angewiesen sind, um zu coden, Dokumente zu verfassen und Prozesse zu automatisieren, bedeutet eine einmalige Herabstufung des Modells, dass die gesamte Produktivität zur gleichen Zeit kollektiv nach unten geht. Das verwandelt sich dann in beträchtliche Verluste an Zeit und Kosten.

KI fühlt sich dümmer an? Daten belegen: „längst herabgestuft“

Wisely Chen weist darauf hin, dass Aussagen wie „GPT wird dümmer“, „Claude ist nicht mehr wie früher“ in der Community schon lange kursieren, aber über einen langen Zeitraum hinweg fehlte ihnen an objektischen Daten als Grundlage. Erst in jüngster Zeit tauchten Plattformen auf, die die Qualität der Modelle kontinuierlich überwachen, wodurch dieses Phänomen erstmals quantifiziert wurde.

Dabei testet StupidMeter in automatisierten 24-Stunden-Tests unter anderem gängige Modelle wie OpenAI, Anthropic und Google. Es werden Kennzahlen wie Korrektheit, Fähigkeit zum Schlussfolgern und Stabilität verfolgt. Im Unterschied zu traditionellen einmaligen Benchmarks ist ein solches System eher vergleichbar mit der Art, wie Unternehmen über Überwachungs-APIs oder Dienstverfügbarkeit beobachten: Man betrachtet die Schwankungen der Modellleistung in realen Nutzungsszenarien.

Die Ergebnisse sind ziemlich eindeutig: Derzeit befinden sich die meisten gängigen Modelle im Warn- oder Herabstufungszustand, nur wenige Modelle bleiben normal. Das bedeutet, dass die Qualität der Modelle instabil ist – nicht ein einzelnes Produktproblem, sondern ein allgemeines Phänomen in der gesamten Branche.

LLMs stehlen sich „Dummheit“ ein – wirkt auf die Stabilität von KI-Workflows in Unternehmen

Für Unternehmen steht eine solche Veränderung dafür, dass KI von einem „Werkzeug zur Effizienzsteigerung“ zu einer „Variable wird, die Stabilität beeinflusst“. Wenn die täglichen Arbeitsabläufe eines Unternehmens – vom Programmieren über Code-Reviews bis hin zur Erstellung von Dokumenten und Analyseberichten – bereits stark von LLMs abhängen, dann treten, sobald an einem Tag die Schlussfolgerungsfähigkeit nachlässt oder die Antwortqualität einbricht, diese Probleme nicht wie bei klassischen Software-Bugs nur lokal auf. Stattdessen sickern sie gleichzeitig in alle Bereiche ein, in denen KI genutzt wird.

Noch entscheidender ist: Diese Schwankungen sind oft schwer vorherzusagen und ebenso schwer in Echtzeit zu bemerken. Die meisten Unternehmen verfügen nicht über Mechanismen, die die Modellqualität kontinuierlich überwachen. Üblicherweise merkt man das Problem erst, wenn die Ergebnisse auffällig sind oder die Effizienz des Teams sinkt – und dann erkennt man, dass die Ursache das Modell selbst ist. In einer solchen Situation ist „dümmer machen“ nicht mehr nur das subjektive Gefühl der Nutzer, sondern eine systemische Risikokomponente, die direkt den Takt der Unternehmensabläufe beeinflusst.

Wenn KI zu Strom und Wasser wird, wird Stabilität zum neuen Schlüsselindikator

Wisely Chen vergleicht die Rolle von LLMs mit „Strom und Wasser für moderne Unternehmen“. Wenn KI tief in die tägliche Betriebsführung eingedrungen ist und zu einer unverzichtbaren Basisfähigkeit wird, steigt auch die Bedeutung ihrer Stabilität.

Bisher konzentrierten sich Unternehmen bei der Bewertung von KI-Tools vor allem auf Modellfähigkeiten, Preis und Funktionen. Doch mit dem Auftauchen des „Abschwächens der Intelligenz“-Phänomens tritt ein weiterer, noch wichtigerer Indikator in den Vordergrund: Stabilität. Wenn die Qualität der Modelle sich ändern kann, ohne vorher angekündigt zu werden, dann geht es für Unternehmen nicht mehr nur darum, „KI zu nutzen“, sondern damit beginnt, eine neue Art von Infrastruktur-Risiko zu tragen. Am verzweifeltsten ist: Wenn man nur auf die führenden großen Sprachmodelle schaut, dann ist grundsätzlich davon auszugehen, dass es weiter passieren kann, solange das Problem mit der Rechenleistung nicht gelöst ist.

Dieser Artikel 数据曝 „Claude 降智“并非都市传说,AI 模型不穩定成企业风险 最早出現於 鏈新聞 ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare