Inception Labs stellte am Donnerstag Mercury 2 vor und positionierte es als das schnellste Reasoning-Sprachmodell der Welt – mit etwa 1.000 Tokens pro Sekunde. Das Modell erzielte 90 auf dem AIME 2026-Benchmark und lag damit vor dem kürzlich veröffentlichten DiffusionGemma von Google, das 69,1% bei demselben Test erreichte, bei ähnlichen Generationsgeschwindigkeiten. Beide Modelle nutzen Diffusion-basierte parallele Generierung statt sequentieller Token-Verarbeitung, was einen branchenweiten Architekturwechsel hin zu schnelleren Inferenzmethoden widerspiegelt.
Mercury 2 Outperforms DiffusionGemma on Mathematics Benchmark
Mercury 2 generiert etwa 1.000 Tokens pro Sekunde – die Textbrocken, die ein KI-Modell liest und schreibt – gegenüber ungefähr 89 Tokens pro Sekunde für Anthropic's Claude Haiku 4,5 Reasoning und 71 für OpenAI's GPT-5 Mini, so Inception Labs in seiner Ankündigung. Auf AIME 2026, das aus realen Problemen des American Invitational Mathematics Examination besteht und als Prozentsatz korrekt gelöster Aufgaben bewertet wird, erreichte Mercury 2 90%. Google testete DiffusionGemma mit demselben Datensatz, bei dem es 69,1% erzielte, während Gemma 4 ohne Diffusion-Ansatz 88,3% im selben Test erreichte.
Auf GPQA, einem Science-Benchmark auf PhD-Niveau, läuft es nach demselben Muster: Die beiden Modelle liegen nahezu gleichauf – Mercury 2 mit 77% gegenüber DiffusionGemma's 73,2%. Googles Developer Guide empfiehlt standardmäßig Gemma 4 für Anwendungen, die maximale Qualität verlangen, und räumt ein, dass DiffusionGemma ihm in allen Punkten hinterherhinkt. DiffusionGemma ist kostenlos und als Open-Weight-Modell auf Hugging Face verfügbar. Mercury 2 ist ein kostenpflichtiges, geschlossenes Weight-API-Modell.
Diffusion Models Replace Sequential Token Generation
Beide Modelle verabschieden sich vom Typewriter-Ansatz beim Schreiben. Ein Standard-Chatbot schreibt ein Wort, prüft, was er gerade geschrieben hat, und schreibt dann das nächste – in einer Schleife, bis die Antwort fertig ist. Diffusion-Modelle füllen stattdessen einen Block Text mit zufälligen Platzhalter-Tokens und löschen das Rauschen über mehrere parallele Durchläufe hinweg – derselbe Trick, der aus statischen Bildern in Bildgeneratoren wie Stable Diffusion eine Fotografie macht –, bis der gesamte Block auf einmal in eine fertige Antwort einrastet.
Augment Code Reports 82% Latency Reduction in Production
Augment Code, ein Unternehmen für KI-Coding-Agents, hat Mercury 2 anstelle von Anthropic's Claude Opus 4.7 in seinem context-compaction Subagent eingesetzt und dabei laut einer gemeinsamen Fallstudie einen Rückgang der Latenz um 82% sowie eine Kürzung der Kosten um 90% erzielt, bei gleichzeitig gemeldeter gleicher Output-Qualität.
Inception Labs Secures $50 Million Funding Round
Inception Labs hat 50 Millionen US-Dollar an Finanzierung eingesammelt – unterstützt durch den Venture-Arm von Nvidia sowie durch einzelne Investoren Andrew Ng und Andrej Karpathy. Das Startup wurde auf Forschungen seines Gründers Stefano Ermon aufgebaut, eines Stanford-Professors, der einige der score-basierten Diffusion-Techniken mitverfasst hat, die die heutigen Bildgeneratoren antreiben.
Parallel Generation Enables Multi-Agent System Architecture
Komplexe KI-Systeme sind Orchester spezialisierter Helfer: einer für tiefes Reasoning, mehrere für schnelles Zusammenfassen, Routing, Tool-Lookup, Output-Checks. Sequentielle Modelle machen solche Utility-Aufrufe teuer und langsam. Parallele Diffusion-Modelle machen sie günstig und schnell genug, um sie großzügig einzusetzen. Mercury 2 ist derzeit API/Cloud, und das komplette Ökosystem – lokale Runtimes, Agent-Frameworks – holt erst noch auf.
Speed-Sensitive Workflows Benefit from Diffusion Approach
Zu den Anwendungsfällen zählen Echtzeit-Programmierung, bei der das Modell mit Änderungen Schritt hält, Multi-Agent-Coding oder Support-Systeme, in denen viele schnelle Sub-Calls anfallen, Voice-Interfaces, die sich nicht verzögert anfühlen, sowie jeder latenzkritische Autocomplete- oder Next-Action-Prediction-Fall. In der Skalierung summieren sich laut Inception Labs die Kosten- und Energieeinsparungen durch höheren Durchsatz auf Standardhardware schnell.
FAQ
Was hat Inception Labs am Donnerstag angekündigt?
Inception Labs stellte am Donnerstag Mercury 2 vor und bezeichnete es als das schnellste Reasoning-Sprachmodell der Welt. Es generiert etwa 1.000 Tokens pro Sekunde und erzielte 90 auf dem AIME 2026-Benchmark.
Wie schneidet Mercury 2 im Vergleich zu Googles DiffusionGemma bei Benchmarks ab?
Mercury 2 erzielte 90 auf AIME 2026, während DiffusionGemma von Google bei demselben Test 69,1% erzielte. Auf GPQA, einem Science-Benchmark auf PhD-Niveau, erreichte Mercury 2 77% gegenüber 73,2% für DiffusionGemma.
Welche Kosten- und Latenzverbesserungen hat Augment Code gemeldet?
Augment Code setzte Mercury 2 anstelle von Anthropic's Claude Opus 4.7 in seinem context-compaction Subagent ein und verzeichnete dabei laut einer gemeinsamen Fallstudie einen Rückgang der Latenz um 82% sowie eine Kürzung der Kosten um 90%, bei gleichzeitig gemeldeter gleicher Output-Qualität.