นักวิจัยด้าน AI Aran Komatsuzaki เมื่อเร็วๆ นี้ได้โพสต์การวิเคราะห์เชิงทดลองบนแพลตฟอร์ม X เปิดโปงปัญหาอย่างรุนแรงของ “ภาษีโทเคนสำหรับภาษาไม่ใช่อังกฤษ (non-English tax)” ที่พบในตัวแบ่งคำ (tokenizer) ของโมเดลภาษาขนาดใหญ่ (LLM) แทนที่จะต้องใช้โทเคนเพิ่มสำหรับผู้ใช้ภาษาอื่น โดยโมเดล Claude ในเครือ Anthropic สำหรับเนื้อหาภาษา จีน ญี่ปุ่น และเกาหลี อาจต้องสิ้นเปลืองโทเคนสูงถึงเกือบ 3 เท่า ซึ่งจุดชนวนให้เกิดการถกเถียงในชุมชน
วิธีการทดลอง: ใช้บทความคลาสสิกเพื่อวัดความต่างของ “ต้นทุนด้านภาษา”
Komatsuzaki ใช้บทความคลาสสิกเรื่อง “The Bitter Lesson” เป็นสื่อ โดยนำไปแปลเป็นภาษาจีน ฮินดี อาหรับ เกาหลี ญี่ปุ่น และภาษาอื่นๆ แล้วจึงนำแต่ละเวอร์ชันไปคำนวณจำนวนโทเคนที่ tokenizer ของโมเดลชั้นนำแต่ละตัวใช้ การทดลองตั้ง OpenAI เวอร์ชันภาษาอังกฤษเป็นฐาน (1.0×) และเปรียบเทียบประสิทธิภาพในการประมวลผลของแต่ละโมเดลต่อภาษาแต่ละแบบด้วยอัตราส่วนที่เป็นมาตรฐาน
จำนวนโทเคนเป็นตัวกำหนดทั้งค่าใช้จ่ายในการเรียกใช้ API และความล่าช้าในการตอบกลับโดยตรง ยิ่งใช้โทเคนมากยิ่งมีต้นทุนสูงและยิ่งช้าลง ดังนั้นความแตกต่างของประสิทธิภาพ tokenizer จึงสะท้อนความต่างทั้งในกระเป๋าเงินของผู้ใช้และประสบการณ์การใช้งานจริง
Komatsuzaki ยังได้แนบเว็บไซต์ที่เขาออกแบบเองสำหรับคำนวณปริมาณโทเคน:
AI ก็มีการเหยียดเชื้อชาติด้วยหรือ? Claude เก็บ “ภาษีภาษา” สูงสุด ฮินดีเจอหนักสุด
OpenAI vs. Anthropic อัตราทวีคูณการใช้ Token แยกตามภาษา กราฟแท่ง
ข้อมูลชี้ว่า อัตราส่วน token ของ OpenAI ในหลายภาษาโดยทั่วไปอยู่ภายใน 1.4× ขณะที่ความต่างของ Anthropic (Claude) ชัดเจนมาก:
ภาษาฮินดี: 3.24× (Claude) vs. 1.37× (OpenAI)
ภาษาอาหรับ: 2.86× (Claude) vs. 1.31× (OpenAI)
ภาษารัสเซีย: 2.04× (Claude) vs. 1.31× (OpenAI)
ภาษาจีน: 1.71× (Claude) vs. 1.15× (OpenAI)
กล่าวคือ หากนักพัฒนาชาวอินเดียใช้ API ของ Claude เพื่อประมวลผลเนื้อหาภาษาฮินดี เขาอาจต้องจ่ายค่าใช้จ่ายที่สูงกว่างานภาษาอังกฤษเดียวกันถึงมากกว่า 3 เท่า และความเร็วในการตอบกลับก็จะลดลงอย่างเห็นได้ชัดเพราะโทเคนพองตัว
เปรียบเทียบแบบข้ามสายโมเดล 6 ตัว: โมเดลจากจีนแซงขึ้นนำ, Gemini ทำผลงานดีที่สุด
กราฟฮีตแมปอัตราทวีคูณการใช้ Token ข้ามหลายภาษาในโมเดล 6 ตัว
หลังจากนั้น Komatsuzaki ได้โพสต์ขยายขอบเขตการเปรียบเทียบ โดยเพิ่มโมเดลอย่าง Gemini 3.1, Qwen 3.6, DeepSeek V4, Kimi K2.6 และอื่นๆ ผลลัพธ์แสดงว่า:
Gemini 3.1: 1.22× (เป็นมิตรที่สุดต่อผู้ใช้ที่ไม่ใช่ภาษาอังกฤษ)
Qwen 3.6: 1.23×
OpenAI: 1.33×
DeepSeek V4: 1.49×
Kimi K2.6: 1.76×
Anthropic: 2.07× (ไม่เป็นมิตรที่สุดต่อผู้ใช้ที่ไม่ใช่ภาษาอังกฤษ)
ข้อมูลทำให้เห็นชัดว่า โทเคนที่ใช้กับภาษาจีนต่ำกว่าค่าอ้างอิงภาษาอังกฤษในหลายโมเดล เช่น Qwen (0.85×), DeepSeek (0.87×), และ Kimi (0.81×) แสดงว่าโมเดลจากจีนได้ปรับจูนเพื่อภาษาจีนอย่างลึกซึ้งแล้ว ในขณะที่ Komatsuzaki เองยอมรับในคำตอบว่า “ผมไม่คิดว่า Claude จะออกมาแย่และไม่สมดุลขนาดนี้”
ความกังวลจากชุมชน: “ความเหลื่อมล้ำด้านต้นทุน” เป็นปัญหาร้ายแรงในกระบวนการทำให้ AI เข้าถึงผู้คนจำนวนมาก
ผลการทดลองได้รับเสียงตอบรับอย่างแรงบนชุมชน X โดยผู้พัฒนาที่ไม่ใช่ผู้ใช้ภาษาอังกฤษจำนวนมากระบุว่า ในการใช้งานจริง การใช้ Claude กับเอกสารภาษาจีนหรือเกาหลี “ชุดเดียวกัน” มีค่าใช้จ่ายสูงกว่าการใช้กับ Gemini อย่างชัดเจน
การถกเถียงยังขยายไปสู่สาเหตุเชิงเทคนิค โดยชี้ว่าความต่างด้านประสิทธิภาพ tokenizer ส่วนใหญ่เกิดจากข้อมูลที่ใช้ฝึกนั้นมีเนื้อหาเป็นภาษาอังกฤษและอักษรละตินเป็นหลัก ทำให้โมเดลมีความเข้าใจต่อระบบตัวอักษรอื่นได้ต่ำกว่า ส่งผลให้แต่ละอักขระหรือคำต้องใช้โทเคนมากขึ้น แม้ว่าผู้ใช้ภาษาฮินดีทั่วโลกจะมีมากถึงหลายร้อยล้านคน แต่เมื่อเทียบกับจำนวนผู้ใช้งานแล้ว ชุดข้อมูลฝึกคุณภาพสูงมีไม่มากพอ ประกอบกับโครงสร้างตัวอักษรที่มีความซับซ้อน ทำให้ภาษากลุ่มนี้กลายเป็นกลุ่มที่มีค่าใช้จ่ายสูงที่สุดในการใช้งาน AI
บางส่วนของชาวเน็ตมองว่า กลุ่มลูกค้าหลักของ Anthropic เอียงไปทางบริษัทที่ใช้ภาษาอังกฤษและสถานการณ์การพัฒนาโค้ด จึงขาดแรงจูงใจในการปรับให้รองรับหลายภาษา ในทางกลับกัน OpenAI ถนัดการประมวลผลเนื้อหาภาษา และให้ความเห็นตรงๆ ว่า “AI ควรเป็นเทคโนโลยีที่เท่าเทียมและทำให้ประชาธิปไตยเข้าถึงได้ แต่กลับเป็นผู้ใช้ที่ไม่ใช่ภาษาอังกฤษที่ต้องจ่ายค่า ‘การเลือกปฏิบัติทางภาษา’ ”
ท้ายที่สุดแล้ว ความขัดแย้งรอบการออกแบบ tokenizer ครั้งนี้ ไม่ใช่แค่เรื่องเทคนิค แต่ยังสะท้อนความไม่สมดุลของอุตสาหกรรม AI ในกระบวนการขยายตัวทั่วโลก
บทความนี้ Claude จะเก็บ “ภาษีภาษา” หรือไม่? งานวิจัยเผย แปลเนื้อหา จีน-ญี่ปุ่น-เกาหลี ใช้โทเคนมากที่สุด เกือบ 3 เท่า ปรากฏครั้งแรกที่ 鏈新聞 ABMedia
news.related.news
BioMysteryBench:Mythos ผู้เชี่ยวชาญไขความลึกลับไม่สามารถไขปัญหาได้ 29.6%
มหาวิทยาลัยออกซ์ฟอร์ด คณะวิจัยด้านอินเทอร์เน็ต: การฝึกแบบเป็นมิตรทำให้อัตราความผิดพลาดของ AI เพิ่มขึ้น 7.43 จุดเปอร์เซ็นต์
รองประธานฝ่ายการเรียนรู้เชิงลึกของ Nvidia เชื่อว่าค่าใช้จ่ายด้านการประมวลผล AI แซงต้นทุนค่าจ้างบุคลากร
นักวิเคราะห์เซมิคอนดักเตอร์มองบวกต่อกระแส AI “อย่างน้อยยังไปต่ออีก 3 ปี”: การบรรจุขั้นสูงคือคอขวดของอุตสาหกรรม
ตำนานนักเทรดกองทุนป้องกันความเสี่ยงพูดถึงอัตราส่วนราคาต่อกำไรของหุ้นสหรัฐ: คนที่ซื้อดัชนีตลาดในอีกไม่กี่ปีข้างหน้าจะทำกำไรได้ยากมาก