Стоимость китайской токенизации у Claude на 65% выше, чем у английского; у OpenAI только на 15% больше

Gate News сообщение, 29 апреля — исследователь ИИ Аран Комацузаки провел сравнительный анализ эффективности токенизации на шести основных ИИ-моделях, переведя основополагающую работу Рича Саттона “The Bitter Lesson” на девять языков и пропустив их через токенизаторы OpenAI, Gemini, Qwen, DeepSeek, Kimi и Claude. Используя количество токенов английской версии в OpenAI в качестве базового уровня (1x), исследование выявило существенные различия: обработка того же контента на китайском требовала 1,65x токенов у Claude по сравнению лишь с 1,15x у OpenAI. На Claude хинди показал еще более экстремальный результат, превысив базовый уровень более чем в 3 раза. Anthropic оказался самым низким среди шести протестированных моделей.

Критически важно, что когда идентичный китайский текст обрабатывали на разных моделях — все они сравнивались с одним и тем же английским базовым уровнем — результаты разошлись драматически: Kimi потреблял лишь 0,81x токенов (даже меньше, чем английский), Qwen — 0,85x, тогда как Claude требовалось 1,65x. Этот разрыв указывает на чистую проблему эффективности токенизации, а не на врожденную языковую проблему. Китайские модели продемонстрировали более высокую эффективность при обработке китайского, что позволяет предположить, что разница связана с оптимизацией токенизатора, а не с самим языком.

Практические последствия для пользователей существенны: повышенное потребление токенов напрямую увеличивает API-расходы, удлиняет задержку ответов моделей и быстрее исчерпывает контекстные окна. Эффективность токенизации зависит от лингвистического состава тренировочных данных модели — модели, обученные преимущественно на английском, сжимают английский текст более эффективно, а языки с меньшей представленностью токенизируются в более мелкие, менее эффективные фрагменты.

Вывод Комацузаки подчеркивает фундаментальный принцип: размер рынка определяет эффективность токенизации. Более крупные рынки получают лучшую оптимизацию, тогда как языки, недостаточно представленные, сталкиваются со значительно более высокими затратами на токены.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

AI-платформа Certifyde привлекает $2M в посевном финансировании вместе с CEO Ripple Брэдом Гарлингхаусом

Согласно ChainCatcher, платформа для AI-приложений Certifyde объявила о завершении раунда посевного финансирования на сумму $2 миллионов долларов. Инвесторы включают K5 Global, Flamingo Capital, а также бизнес-ангелов, таких как CEO Ripple Брэд Гарлингхаус, сооснователь Honey Джордж Руань и сооснователь Nutra Роланд

GateNews1ч назад

DeepSeek запускает функцию распознавания изображений в бета-тестировании

Согласно PANews, сегодня DeepSeek запустила функцию распознавания изображений (29 апреля), в настоящее время она находится на бета-тестировании. Для развертывания бета-версии могут быть выбраны как пользователи веб-версии, так и мобильного приложения.

GateNews2ч назад

Anthropic Запускает 8 Коннекторов для Творческих Инструментов для Claude, Включая Blender, Adobe, Autodesk

Anthropic объявила набор коннекторов для творческих инструментов, которые позволяют Claude напрямую управлять профессиональным программным обеспечением, используемым дизайнерами и музыкантами. Первые восемь коннекторов охватывают 3D-моделирование, визуальный дизайн, музыкальное продакшн и живые выступления, а партнёрами выступают Blender, Adobe,

GateNews2ч назад

Белый дом обходит оценку рисков Пентагона, чтобы развернуть модель Mythos от Anthropic 29 апреля

Согласно Whale Factor, Белый дом обходит оценку рисков Пентагона, чтобы развернуть модель Mythos от Anthropic во всех федеральных ведомствах 29 апреля. Этот шаг направлен на ускорение возможностей федерального ИИ и на то, чтобы идти в ногу с темпами децентрализованных ИИ-сетей. Это означает существенный сдвиг

GateNews2ч назад

Cognizant приобретет Astreya за $600M , чтобы расширить бизнес по развитию инфраструктуры ИИ

По данным Reuters, 29 апреля Cognizant согласилась приобрести Astreya примерно за $600 миллиона, поскольку расширяет свой бизнес по развитию инфраструктуры ИИ. Astreya — поставщик ИТ-услуг, специализирующийся на инфраструктуре ИИ и услугах дата-центров. Ожидается, что сделка будет завершена во втором квартале

GateNews2ч назад

30 вредоносных плагинов на ClawHub, замаскированных под AI-инструменты, скачаны более 9 800 раз

Согласно исследователю Manifold Акс Шарме, 30 плагинов на ClawHub, замаскированных под легитимные AI-инструменты, были скачаны более 9 800 раз, при этом тайно превращая AI-ассистентов пользователей в криптовалютных работников. Плагины, опубликованные под аккаунтом imaflytok, выглядят как обычные планировщики задач и инструменты мониторинга, однако содержат скрытые инструкции, которые выполняют несанкционированные операции. После установки плагины автоматически регистрируют AI-ассистентов пользователей на сторонних серверах, создают криптовалютные кошельки и извлекают приватные ключи без согласия и уведомления пользователя. Затем ассистенты выходят на связь каждые 4 часа в ожидании назначенных задач. Шарма отметил, что плагины не содержат вредоносного кода, который можно обнаружить с помощью сканеров безопасности: они используют только стандартные интерфейсы и легитимные инструменты, из-за чего их сложно выявить при обычных проверках безопасности.

GateNews2ч назад
комментарий
0/400
Нет комментариев