Американский AI-стартап Arcee выпустил открытый исходный код модели для вывода Trinity-Large-Thinking, набрав 91.9 в тесте-бенчмарке способностей агентов PinchBench, уступив лишь Opus 4.6 с 93.3, а на бенчмарке задач Agent Tau2-Airline и вовсе, набрав 88.0, занял самый высокий результат среди всех сравниваемых моделей. Модель использует архитектуру разрежённых смешанных экспертов с общим размером 400B; цена API — $0.90 за миллион token на выходе, что примерно на 96% дешевле, чем Opus 4.6. Весы доступны для скачивания с лицензией Apache 2.0. Подготовлено и обобщено отчетом Dongqu Dongqu.
(Предыстория: анализ OpenRouter 100 трлн Token research report: что именно человек использует AI для, рост китайских моделей и секреты удержания пользователей)
(Дополнительная справка по контексту: пришел Claude Opus 4.6 — он сам пишет компилятор, делает PPT, и находит сотни нулевых дней на ходу; он хочет попробовать твою работу тоже).
Американский AI-стартап Arcee, в компании меньше ста сотрудников, выдал на оценке способностей агентов результаты, которые вплотную соперничают с флагманской моделью Anthropic, а по цене стоит только 4% от нее.
В прошлом эта компания не была в центре внимания мейнстрима, но их недавно выпущенная Trinity-Large-Thinking уже пробилась в верхнюю часть рейтинга на нескольких бенчмарках в сценариях с агентами.
PinchBench, разработанный Kilo, — один из ключевых индикаторов в индустрии, по которому оценивают практические способности моделей в рабочих процессах агентных задач; Trinity-Large-Thinking в этом тесте набрала 91.9, тогда как действующий лидер Opus 4.6 — 93.3, то есть разрыв всего 1.4%.
На другом бенчмарке, имитирующем реалистичный сценарий службы поддержки клиентов, Tau2-Airline, она набрала еще и 88.0, опередив все модели, участвовавшие в сравнении. Это означает, что в реальных агентных задачах, где нужны многораундовые диалоги и многократные запросы к инструментам, эта открытая модель действительно демонстрирует очень высокий уровень.
А цена API Arcee составляет $0.90 за миллион token на выходе; официально заявлено, что это примерно на 96% дешевле, чем Opus 4.6. Для сценариев, где нужно, чтобы агент долго автоматически выполнял задачи и постоянно расходовал token, разница в стоимости может быть более значимой, чем разница в оценках модели.
Согласно заявлению официального блога Arcee AI, ключ к такой выгоде по цене лежит в выборе архитектуры. Trinity-Large-Thinking использует разрежённую MoE (смешение экспертов): внутри размещены 256 экспертных модулей, но при обработке каждого token запускаются только 4 из них. Если пересчитать, то для огромной модели в 400B при реальном выводе требуется лишь вычислительная нагрузка уровня 13B; эффективность выполнения примерно в 2–3 раза выше, чем у плотных моделей того же порядка.
По сравнению с предыдущей версией Preview, выпущенной в конце января этого года, главное обновление — добавление цепочки рассуждений при выводе.
Preview делала только fine-tuning по инструкциям; в версии Thinking перед ответом модель сначала «подумает», что заметно улучшает стабильность при многораундовых вызовах инструментов и согласованность в длинном контексте. Сам Arcee говорит об этом довольно прямо: эта модель создана, чтобы не «падать» в длительных агентных циклах.
На весь базовый обучающий этап ушло 20 миллионов долларов и 33 дня; пост-обучение для Thinking-версии заняло еще 9 месяцев.
В тексте для анонса CEO Arcee Lucas Atkins написал: «Чтобы прийти сюда, потребовалась сложная техническая работа, тяжелые решения… Никто этого не сделал. Они продолжали давить».
Конечно, специализация на агентных сценариях тоже означает компромиссы. В бенчмарках универсального рассуждения результаты Trinity-Large-Thinking уже не столь впечатляющие. GPQA-D набирает 76.3, тогда как Kimi K2.5 — 86.9, Opus 4.6 — 89.2; разрыв составляет соответственно 10 и 13 процентных пунктов. А MMLU-Pro с 83.4 также оказывается внизу среди моделей сравнения.
Но, похоже, Arcee не планирует «упираться» в это направление. Официально заявлено, что «Trinity-Large-Thinking — самый сильный открытый исходный код модель за пределами Китая во многих измерениях», и что их соперники — не Opus или GPT, а DeepSeek, Kimi и другие китайские открытые экосистемы.
Trinity-Large-Thinking уже размещена на OpenRouter; в первые 5 дней ее можно было бесплатно использовать в OpenClaw. Предыдущая версия Preview также продолжит быть доступной бесплатно.
Что касается предыдущей версии Preview: с момента запуска в конце января она на платформе OpenRouter накопила более 3.37 трлн token в обработке. По статистике OpenClaw, это открытая модель номер один по объему использования в США и номер четыре в мире. Для небольшой по масштабу стартап-компании такая доля внедрения уже доказывает, что она и недорогая, и удобная, и что спрос на рынке действительно существует.
Веса модели опубликованы на Hugging Face по лицензии Apache 2.0 — любой может скачать, модифицировать и развернуть в коммерческих целях.