Mercury 2 від Inception Labs набирає 90 на AIME 2026, випереджаючи DiffusionGemma від Google

Inception Labs представила Mercury 2 у четвер, позиціонуючи її як найшвидшу у світі модель міркувань із приблизно 1 000 токенів за секунду. Модель набрала 90 на бенчмарку AIME 2026, випередивши нещодавно випущену Google DiffusionGemma, яка отримала 69,1% на цьому ж тесті, досягаючи подібних швидкостей генерації. Обидві моделі використовують дифузійне паралельне генерування замість послідовної обробки токенів, що відображає загальноіндустріальний зсув до швидших методів інференсу.

Mercury 2 випереджає DiffusionGemma на математичному бенчмарку

Mercury 2 генерує приблизно 1 000 токенів за секунду — фрагменти тексту, які модель читає і записує — проти близько 89 токенів за секунду для Anthropic Claude Haiku 4,5 Reasoning і 71 для OpenAI GPT-5 Mini, за даними оголошення Inception Labs. На AIME 2026, зібраному з реальних задач American Invitational Mathematics Examination і оціненому як відсоток розв’язаних правильно, Mercury 2 досягла 90%. Google перевірила DiffusionGemma на тому ж наборі, де вона набрала 69,1%, тоді як стандартна недифузійна Gemma 4 набрала 88,3% на цьому ж тесті.

На GPQA — науковому бенчмарку рівня PhD — ситуація та сама: обидві моделі майже зрівнялись — Mercury 2 із 77% проти 73,2% у DiffusionGemma. Розробницький гайд Google рекомендує стандартну Gemma 4 для застосунків, що потребують максимальної якості, визнаючи, що DiffusionGemma поступається їй у всьому. DiffusionGemma — безкоштовна і з відкритими вагами на Hugging Face. Mercury 2 — платна закрита API-модель.

Дифузійні моделі замінюють послідовну генерацію токенів

Обидві моделі відмовляються від друкарської манери запису. Звичайний чатбот записує одне слово, перевіряє те, що щойно написав, а потім пише наступне, повторюючи цикл, доки відповідь не буде завершено. Натомість дифузійні моделі заповнюють блок тексту випадковими маркерними токенами-плейсхолдерами й стирають цей шум за кілька паралельних проходів — той самий трюк, який перетворює статичне зображення на фотографію в генераторах на кшталт Stable Diffusion — доки весь блок не «застигне» в готову відповідь одночасно.

Augment Code повідомляє про 82% зниження затримок у production

Augment Code — компанія з AI coding-agent — замінила Mercury 2 на Claude Opus 4.7 від Anthropic у своєму контекст-стискаючому субагенті й побачила 82% падіння latency та 90% скорочення витрат, повідомляючи про таку ж якість виходу, згідно з спільним кейсдослідженням.

Inception Labs залучила раунд на $50 млн

Inception Labs залучила $50 млн інвестицій за підтримки венчурного підрозділу Nvidia та індивідуальних інвесторів Ендрю Нґ (Andrew Ng) і Андрія Карпатьї (Andrej Karpathy). Стартап побудували на дослідженнях його засновника Стефано Ермона (Stefano Ermon), професора Стенфорда, який співавторив деякі з score-based дифузійних технік, що лежать в основі нинішніх генераторів зображень.

Паралельна генерація дозволяє архітектуру мультиагентних систем

Складні AI-системи — це оркестри спеціалізованих помічників: один для глибоких міркувань, кілька для швидкого підсумовування, роутинг, пошук інструментів, перевірка виходу. Послідовні моделі роблять такі службові виклики дорогими і повільними. Паралельні дифузійні моделі роблять їх достатньо дешевими й швидкими, щоб використовувати їх широко. Mercury 2 наразі є API/хмарою, а повна екосистема — локальні середовища виконання, агентські фреймворки — усе ще наздоганяє.

Робочі процеси, чутливі до швидкості, виграють від дифузійного підходу

Серед сценаріїв — реальне програмування, де модель встигає за правками, мультиагентне програмування чи системи підтримки, де трапляються багато швидких субзапитів, голосові інтерфейси, які не відчуваються із лагами, а також будь-яке авто-доповнення чи передбачення наступної дії, де важлива затримка. На масштабі заощадження на вартості й енергії завдяки вищій пропускній здатності на стандартному обладнанні швидко накопичуються, за даними Inception Labs.

FAQ

Що Inception Labs оголосила у четвер? Inception Labs представила Mercury 2 у четвер, назвавши її найшвидшою у світі моделлю міркувань. Вона генерує приблизно 1 000 токенів за секунду і набрала 90 на бенчмарку AIME 2026.

Як Mercury 2 порівнюється з DiffusionGemma від Google на бенчмарках? Mercury 2 набрала 90 на AIME 2026, тоді як DiffusionGemma від Google — 69,1% на цьому ж тесті. На GPQA — науковому бенчмарку рівня PhD — Mercury 2 досягла 77% проти 73,2% у DiffusionGemma.

Які покращення за вартістю та latency повідомила Augment Code? Augment Code замінила Mercury 2 на Claude Opus 4.7 від Anthropic у своєму контекст-стискаючому субагенті й побачила 82% падіння latency та 90% скорочення витрат, повідомляючи про таку ж якість виходу, згідно з спільним кейсдослідженням.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів