Inception Labs представила Mercury 2 у четвер, позиціонуючи її як найшвидшу у світі модель міркувань із приблизно 1 000 токенів за секунду. Модель набрала 90 на бенчмарку AIME 2026, випередивши нещодавно випущену Google DiffusionGemma, яка отримала 69,1% на цьому ж тесті, досягаючи подібних швидкостей генерації. Обидві моделі використовують дифузійне паралельне генерування замість послідовної обробки токенів, що відображає загальноіндустріальний зсув до швидших методів інференсу.
Mercury 2 випереджає DiffusionGemma на математичному бенчмарку
Mercury 2 генерує приблизно 1 000 токенів за секунду — фрагменти тексту, які модель читає і записує — проти близько 89 токенів за секунду для Anthropic Claude Haiku 4,5 Reasoning і 71 для OpenAI GPT-5 Mini, за даними оголошення Inception Labs. На AIME 2026, зібраному з реальних задач American Invitational Mathematics Examination і оціненому як відсоток розв’язаних правильно, Mercury 2 досягла 90%. Google перевірила DiffusionGemma на тому ж наборі, де вона набрала 69,1%, тоді як стандартна недифузійна Gemma 4 набрала 88,3% на цьому ж тесті.
На GPQA — науковому бенчмарку рівня PhD — ситуація та сама: обидві моделі майже зрівнялись — Mercury 2 із 77% проти 73,2% у DiffusionGemma. Розробницький гайд Google рекомендує стандартну Gemma 4 для застосунків, що потребують максимальної якості, визнаючи, що DiffusionGemma поступається їй у всьому. DiffusionGemma — безкоштовна і з відкритими вагами на Hugging Face. Mercury 2 — платна закрита API-модель.
Дифузійні моделі замінюють послідовну генерацію токенів
Обидві моделі відмовляються від друкарської манери запису. Звичайний чатбот записує одне слово, перевіряє те, що щойно написав, а потім пише наступне, повторюючи цикл, доки відповідь не буде завершено. Натомість дифузійні моделі заповнюють блок тексту випадковими маркерними токенами-плейсхолдерами й стирають цей шум за кілька паралельних проходів — той самий трюк, який перетворює статичне зображення на фотографію в генераторах на кшталт Stable Diffusion — доки весь блок не «застигне» в готову відповідь одночасно.
Augment Code повідомляє про 82% зниження затримок у production
Augment Code — компанія з AI coding-agent — замінила Mercury 2 на Claude Opus 4.7 від Anthropic у своєму контекст-стискаючому субагенті й побачила 82% падіння latency та 90% скорочення витрат, повідомляючи про таку ж якість виходу, згідно з спільним кейсдослідженням.
Inception Labs залучила раунд на $50 млн
Inception Labs залучила $50 млн інвестицій за підтримки венчурного підрозділу Nvidia та індивідуальних інвесторів Ендрю Нґ (Andrew Ng) і Андрія Карпатьї (Andrej Karpathy). Стартап побудували на дослідженнях його засновника Стефано Ермона (Stefano Ermon), професора Стенфорда, який співавторив деякі з score-based дифузійних технік, що лежать в основі нинішніх генераторів зображень.
Паралельна генерація дозволяє архітектуру мультиагентних систем
Складні AI-системи — це оркестри спеціалізованих помічників: один для глибоких міркувань, кілька для швидкого підсумовування, роутинг, пошук інструментів, перевірка виходу. Послідовні моделі роблять такі службові виклики дорогими і повільними. Паралельні дифузійні моделі роблять їх достатньо дешевими й швидкими, щоб використовувати їх широко. Mercury 2 наразі є API/хмарою, а повна екосистема — локальні середовища виконання, агентські фреймворки — усе ще наздоганяє.
Робочі процеси, чутливі до швидкості, виграють від дифузійного підходу
Серед сценаріїв — реальне програмування, де модель встигає за правками, мультиагентне програмування чи системи підтримки, де трапляються багато швидких субзапитів, голосові інтерфейси, які не відчуваються із лагами, а також будь-яке авто-доповнення чи передбачення наступної дії, де важлива затримка. На масштабі заощадження на вартості й енергії завдяки вищій пропускній здатності на стандартному обладнанні швидко накопичуються, за даними Inception Labs.
FAQ
Що Inception Labs оголосила у четвер?
Inception Labs представила Mercury 2 у четвер, назвавши її найшвидшою у світі моделлю міркувань. Вона генерує приблизно 1 000 токенів за секунду і набрала 90 на бенчмарку AIME 2026.
Як Mercury 2 порівнюється з DiffusionGemma від Google на бенчмарках?
Mercury 2 набрала 90 на AIME 2026, тоді як DiffusionGemma від Google — 69,1% на цьому ж тесті. На GPQA — науковому бенчмарку рівня PhD — Mercury 2 досягла 77% проти 73,2% у DiffusionGemma.
Які покращення за вартістю та latency повідомила Augment Code?
Augment Code замінила Mercury 2 на Claude Opus 4.7 від Anthropic у своєму контекст-стискаючому субагенті й побачила 82% падіння latency та 90% скорочення витрат, повідомляючи про таку ж якість виходу, згідно з спільним кейсдослідженням.