Inception Labs’ Mercury 2 erzielt 90 Punkte bei der AIME 2026 und übertrifft Googles DiffusionGemma

2026-06-21 16:12:51

Inception Labs stellte am Donnerstag Mercury 2 vor und positionierte es als das schnellste Reasoning-Sprachmodell der Welt – mit etwa 1.000 Tokens pro Sekunde. Das Modell erzielte 90 auf dem AIME 2026-Benchmark und lag damit vor dem kürzlich veröffentlichten DiffusionGemma von Google, das 69,1% bei demselben Test erreichte, bei ähnlichen Generationsgeschwindigkeiten. Beide Modelle nutzen Diffusion-basierte parallele Generierung statt sequentieller Token-Verarbeitung, was einen branchenweiten Architekturwechsel hin zu schnelleren Inferenzmethoden widerspiegelt.

Mercury 2 Outperforms DiffusionGemma on Mathematics Benchmark

Mercury 2 generiert etwa 1.000 Tokens pro Sekunde – die Textbrocken, die ein KI-Modell liest und schreibt – gegenüber ungefähr 89 Tokens pro Sekunde für Anthropic's Claude Haiku 4,5 Reasoning und 71 für OpenAI's GPT-5 Mini, so Inception Labs in seiner Ankündigung. Auf AIME 2026, das aus realen Problemen des American Invitational Mathematics Examination besteht und als Prozentsatz korrekt gelöster Aufgaben bewertet wird, erreichte Mercury 2 90%. Google testete DiffusionGemma mit demselben Datensatz, bei dem es 69,1% erzielte, während Gemma 4 ohne Diffusion-Ansatz 88,3% im selben Test erreichte.

Auf GPQA, einem Science-Benchmark auf PhD-Niveau, läuft es nach demselben Muster: Die beiden Modelle liegen nahezu gleichauf – Mercury 2 mit 77% gegenüber DiffusionGemma's 73,2%. Googles Developer Guide empfiehlt standardmäßig Gemma 4 für Anwendungen, die maximale Qualität verlangen, und räumt ein, dass DiffusionGemma ihm in allen Punkten hinterherhinkt. DiffusionGemma ist kostenlos und als Open-Weight-Modell auf Hugging Face verfügbar. Mercury 2 ist ein kostenpflichtiges, geschlossenes Weight-API-Modell.

Diffusion Models Replace Sequential Token Generation

Beide Modelle verabschieden sich vom Typewriter-Ansatz beim Schreiben. Ein Standard-Chatbot schreibt ein Wort, prüft, was er gerade geschrieben hat, und schreibt dann das nächste – in einer Schleife, bis die Antwort fertig ist. Diffusion-Modelle füllen stattdessen einen Block Text mit zufälligen Platzhalter-Tokens und löschen das Rauschen über mehrere parallele Durchläufe hinweg – derselbe Trick, der aus statischen Bildern in Bildgeneratoren wie Stable Diffusion eine Fotografie macht –, bis der gesamte Block auf einmal in eine fertige Antwort einrastet.

Augment Code Reports 82% Latency Reduction in Production

Augment Code, ein Unternehmen für KI-Coding-Agents, hat Mercury 2 anstelle von Anthropic's Claude Opus 4.7 in seinem context-compaction Subagent eingesetzt und dabei laut einer gemeinsamen Fallstudie einen Rückgang der Latenz um 82% sowie eine Kürzung der Kosten um 90% erzielt, bei gleichzeitig gemeldeter gleicher Output-Qualität.

Inception Labs Secures $50 Million Funding Round

Inception Labs hat 50 Millionen US-Dollar an Finanzierung eingesammelt – unterstützt durch den Venture-Arm von Nvidia sowie durch einzelne Investoren Andrew Ng und Andrej Karpathy. Das Startup wurde auf Forschungen seines Gründers Stefano Ermon aufgebaut, eines Stanford-Professors, der einige der score-basierten Diffusion-Techniken mitverfasst hat, die die heutigen Bildgeneratoren antreiben.

Parallel Generation Enables Multi-Agent System Architecture

Komplexe KI-Systeme sind Orchester spezialisierter Helfer: einer für tiefes Reasoning, mehrere für schnelles Zusammenfassen, Routing, Tool-Lookup, Output-Checks. Sequentielle Modelle machen solche Utility-Aufrufe teuer und langsam. Parallele Diffusion-Modelle machen sie günstig und schnell genug, um sie großzügig einzusetzen. Mercury 2 ist derzeit API/Cloud, und das komplette Ökosystem – lokale Runtimes, Agent-Frameworks – holt erst noch auf.

Speed-Sensitive Workflows Benefit from Diffusion Approach

Zu den Anwendungsfällen zählen Echtzeit-Programmierung, bei der das Modell mit Änderungen Schritt hält, Multi-Agent-Coding oder Support-Systeme, in denen viele schnelle Sub-Calls anfallen, Voice-Interfaces, die sich nicht verzögert anfühlen, sowie jeder latenzkritische Autocomplete- oder Next-Action-Prediction-Fall. In der Skalierung summieren sich laut Inception Labs die Kosten- und Energieeinsparungen durch höheren Durchsatz auf Standardhardware schnell.

FAQ

Was hat Inception Labs am Donnerstag angekündigt? Inception Labs stellte am Donnerstag Mercury 2 vor und bezeichnete es als das schnellste Reasoning-Sprachmodell der Welt. Es generiert etwa 1.000 Tokens pro Sekunde und erzielte 90 auf dem AIME 2026-Benchmark.

Wie schneidet Mercury 2 im Vergleich zu Googles DiffusionGemma bei Benchmarks ab? Mercury 2 erzielte 90 auf AIME 2026, während DiffusionGemma von Google bei demselben Test 69,1% erzielte. Auf GPQA, einem Science-Benchmark auf PhD-Niveau, erreichte Mercury 2 77% gegenüber 73,2% für DiffusionGemma.

Welche Kosten- und Latenzverbesserungen hat Augment Code gemeldet? Augment Code setzte Mercury 2 anstelle von Anthropic's Claude Opus 4.7 in seinem context-compaction Subagent ein und verzeichnete dabei laut einer gemeinsamen Fallstudie einen Rückgang der Latenz um 82% sowie eine Kürzung der Kosten um 90%, bei gleichzeitig gemeldeter gleicher Output-Qualität.

View Source

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.