Claude erhebt eine Sprachsteuer? Studie zeigt: Übersetzungen von Inhalten aus dem Chinesischen, Japanischen und Koreanischen verbrauchen in den letzten drei Jahren fast dreimal so viele Token

ChainNewsAbmedia

Der KI-Forscher Aran Komatsuzaki hat kürzlich auf der X-Plattform eine experimentelle Analyse veröffentlicht, die aufzeigt, dass die Tokenizer (Tokenizer) gängiger großer Sprachmodelle (LLM) ein gravierendes Problem der „nicht-englischen Sprachsteuer (non-English tax)“ aufweisen. Dabei müssen die Claude-Modelle von Anthropic für sprachliche Inhalte in Chinesisch, Japanisch und Koreanisch sogar bis zu knapp dem Dreifachen an Tokens verbrauchen, was in der Community hitzige Debatten auslöst.

实验方法:用一篇經典論文量化語言成本差距

Komatsuzaki nimmt den Klassiker „The Bitter Lesson“ als Material, übersetzt ihn in Chinesisch, Hindi, Arabisch, Koreanisch, Japanisch und weitere Sprachen und sendet ihn anschließend jeweils in die Tokenizer verschiedener großer Modelle, um die Anzahl der Token zu berechnen. Als Referenz dient die OpenAI-englische Version (1,0×); durch standardisierte Vergleichsmultiplikatoren wird die Verarbeitungseffizienz der Modelle für verschiedene Sprachen gegenübergestellt.

Die Anzahl der Tokens bestimmt direkt die API-Kosten und die Antwortlatenz: Je mehr Tokens, desto höher die Kosten und desto langsamer die Geschwindigkeit. Daher sind die Effizienzunterschiede der Tokenizer im Grunde der Unterschied im Geldbeutel und in der Nutzererfahrung.

Komatsuzaki hat außerdem eine eigene Website bereitgestellt, die den Tokenverbrauch berechnen kann:

AI 也有种族歧视?Claude 语言税最高,印地语首当其冲

OpenAI vs. Anthropic 逐語言 Token 消耗倍率長條圖

Die Daten zeigen, dass die Token-Multiplikatoren von OpenAI für verschiedene Sprachen insgesamt meist innerhalb von 1,4× liegen, während der Unterschied bei Anthropic (Claude) extrem deutlich ausfällt:

Hindi: 3,24× (Claude) vs. 1,37× (OpenAI)

Arabisch: 2,86× (Claude) vs. 1,31× (OpenAI)

Russisch: 2,04× (Claude) vs. 1,31× (OpenAI)

Chinesisch: 1,71× (Claude) vs. 1,15× (OpenAI)

Mit anderen Worten: Wenn ein indischer Entwickler die Claude-API für Hindi-Inhalte nutzt, könnten die tatsächlich anfallenden Kosten mehr als das Dreifache dessen betragen, was für dieselbe englische Aufgabe anfällt; auch die Antwortgeschwindigkeit sinkt spürbar, weil die Token-Anzahl aufgrund der Aufblähung des Tokenverbrauchs deutlich höher ausfällt.

六大模型橫向比較:中國本土模型反超、Gemini 表現最佳

Sechs Modelle im Quervergleich: Chinesische Lokalmodelle ziehen vorbei, Gemini zeigt die beste Leistung

Komatsuzaki hat anschließend in einem weiteren Beitrag den Vergleichsrahmen ausgeweitet und weitere Modelle wie Gemini 3.1, Qwen 3.6, DeepSeek V4, Kimi K2.6 und mehr aufgenommen. Die Ergebnisse zeigen:

Gemini 3.1: 1,22× (für nicht-englische Nutzer am freundlichsten)

Qwen 3.6: 1,23×

OpenAI: 1,33×

DeepSeek V4: 1,49×

Kimi K2.6: 1,76×

Anthropic: 2,07× (für nicht-englische Nutzer am unfreundlichsten)

Man erkennt an den Daten, dass Chinesisch bei Qwen (0,85×), DeepSeek (0,87×) und Kimi (0,81×) einen niedrigeren Tokenverbrauch als den englischen Referenzwert aufweist, was darauf hindeutet, dass die chinesischen Lokalmodelle bereits tiefgehend für Chinesisch optimiert wurden. Komatsuzaki selbst gibt in seiner Antwort offen zu: „Ich hatte nicht erwartet, dass Claude so schlimm und so unausgewogen abschneidet.“

社群擔憂:「成本落差」是 AI 普及化過程的嚴重問題

Die Community befürchtet: „Die Kostendifferenz“ ist ein ernstes Problem im Prozess der Verbreitung von KI

Die experimentellen Ergebnisse haben in der X-Community starkes Echo gefunden; viele nicht-englische Entwickler berichten, dass bei der praktischen Nutzung die Kosten für denselben chinesischen oder koreanischen Text, der von Claude verarbeitet wird, tatsächlich deutlich höher sind als bei Gemini.

Die Debatte geht auch auf die technischen Ursachen: Die Effizienzunterschiede beim Tokenizer ergeben sich vor allem daraus, dass die Trainingsdaten überwiegend aus englischen Inhalten und lateinischen Schriftzeichen bestehen. Dadurch versteht das Modell andere Schriftsysteme weniger gut, wodurch für jedes Zeichen oder jedes Vokabular mehr Tokens verbraucht werden müssen. Selbst wenn weltweit mehrere hundert Millionen Hindi-Nutzer existieren, macht die vergleichsweise geringe Menge an hochwertigen Trainingsmaterialien plus die komplexe morphologische Struktur der Schrift das Hindi zu der Sprachgruppe mit den höchsten Kosten bei der KI-Nutzung.

Einige Nutzer sind zudem der Ansicht, dass die Hauptkundschaft von Anthropic eher aus englischsprachigen Unternehmen und Szenarien für die Code-Entwicklung besteht. Daher fehle es an Motivation für die Optimierung mehrerer Sprachen. Im Gegensatz dazu sei OpenAI besonders gut darin, sprachliche Inhalte zu verarbeiten, und sagt offen: „KI sollte eigentlich eine gleichberechtigende, demokratisierende Technologie sein, aber nicht-englische Nutzer zahlen am Ende für Sprachdiskriminierung.“

Heutzutage ist diese Kontroverse rund um das Tokenizer-Design nicht mehr nur ein Technikproblem, sondern spiegelt auch die Unwucht wider, die im Zuge der globalen Expansion der KI-Industrie entsteht.

這篇文章 Claude 會收語言稅?研究曝翻譯中日韓內容消耗最多近三倍 token 最早出現於 鏈新聞 ABMedia。

Erstmals erschien dieser Artikel „Nimmt Claude eine Sprachsteuer? Studie zeigt: Für Übersetzungen in Chinesisch, Japanisch und Koreanisch werden fast das Dreifache an Tokens verbraucht“ auf Link News ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare