Inception Labs presentó Mercury 2 el jueves, posicionándolo como el modelo de lenguaje de razonamiento más rápido del mundo, con alrededor de 1,000 tokens por segundo. El modelo obtuvo 90 en el benchmark AIME 2026, superando a DiffusionGemma de Google, que logró 69,1% en la misma prueba mientras alcanzaba velocidades de generación similares. Ambos modelos emplean generación paralela basada en difusión en lugar de procesamiento secuencial de tokens, reflejando un cambio arquitectónico en toda la industria hacia métodos de inferencia más rápidos.
Mercury 2 supera a DiffusionGemma en el benchmark de matemáticas
Mercury 2 genera alrededor de 1,000 tokens por segundo—los fragmentos de texto que un modelo de IA lee y escribe—frente a aproximadamente 89 tokens por segundo de Anthropic's Claude Haiku 4.5 Reasoning y 71 de OpenAI's GPT-5 Mini, según el anuncio de Inception Labs. En AIME 2026, construido a partir de problemas reales del American Invitational Mathematics Examination y puntuado como el porcentaje resuelto correctamente, Mercury 2 alcanzó 90%. Google probó DiffusionGemma en el mismo conjunto, donde obtuvo 69,1%, mientras que Gemma 4 estándar, no basado en difusión, consiguió 88,3% en la misma prueba.
En GPQA, un benchmark científico de nivel PhD que se puntúa de la misma manera, los dos modelos casi empatan: Mercury 2 con 77% frente al 73,2% de DiffusionGemma. La guía para desarrolladores de Google recomienda Gemma 4 estándar para aplicaciones que exigen máxima calidad, reconociendo que DiffusionGemma queda por detrás en todos los aspectos. DiffusionGemma es gratis y de pesos abiertos en Hugging Face. Mercury 2 es un modelo API de pago, con pesos cerrados.
Los modelos de difusión reemplazan la generación secuencial de tokens
Ambos modelos abandonan el enfoque de máquina de escribir para escribir. Un chatbot estándar escribe una palabra, verifica lo que acaba de escribir y luego escribe la siguiente, repitiendo hasta que termina la respuesta. Los modelos de difusión, en cambio, rellenan un bloque de texto con tokens marcador aleatorios y borran el ruido a través de varias pasadas paralelas—el mismo truco que convierte lo estático en una foto en generadores de imagen como Stable Diffusion—hasta que todo el bloque se ajusta y queda fijado en una respuesta terminada a la vez.
Augment Code reporta una reducción del 82% en la latencia en producción
Augment Code, una empresa de agentes de codificación de IA, sustituyó Mercury 2 por el Claude Opus 4.7 de Anthropic en su subagente de context-compaction y observó una caída del 82% en la latencia y una reducción del 90% en el costo, manteniendo la misma calidad de salida, según un estudio de caso conjunto.
Inception Labs asegura una ronda de financiación de 50 millones de dólares
Inception Labs recaudó 50 millones de dólares en financiación con respaldo del brazo de venture de Nvidia y de inversores individuales Andrew Ng y Andrej Karpathy. La startup se construyó sobre investigación de su fundador Stefano Ermon, profesor en Stanford, que coescribió algunas de las técnicas de difusión basadas en puntuación que impulsan los generadores de imágenes actuales.
La generación paralela permite una arquitectura de sistema multiagente
Los sistemas de IA complejos son orquestas de ayudantes especializados: uno para el razonamiento profundo, varios para resúmenes rápidos, enrutamiento, búsqueda de herramientas, verificación de salida. Los modelos secuenciales hacen que esas llamadas de utilidad sean costosas y lentas. Los modelos de difusión paralela las vuelven lo bastante baratas y rápidas como para usarlas ampliamente. Mercury 2 es API/nube por ahora, y el ecosistema completo—runtimes locales, frameworks de agentes—todavía está poniéndose al día.
Flujos de trabajo sensibles a la velocidad se benefician del enfoque de difusión
Los casos de uso incluyen programación en tiempo real donde el modelo sigue el ritmo de las ediciones, codificación multiagente o sistemas de soporte donde ocurren muchas subllamadas rápidas, interfaces de voz que no se sienten con retraso, y cualquier autocompletado sensible a la latencia o predicción de la siguiente acción. A escala, el ahorro de costos y energía por un mayor rendimiento en hardware estándar se acumula rápido, según Inception Labs.
FAQ
¿Qué anunció Inception Labs el jueves?
Inception Labs presentó Mercury 2 el jueves, llamándolo el modelo de lenguaje de razonamiento más rápido del mundo. Genera alrededor de 1,000 tokens por segundo y obtuvo 90 en el benchmark AIME 2026.
¿Cómo se compara Mercury 2 con la DiffusionGemma de Google en benchmarks?
Mercury 2 obtuvo 90 en AIME 2026, mientras que DiffusionGemma de Google logró 69,1% en la misma prueba. En GPQA, un benchmark científico de nivel PhD, Mercury 2 alcanzó 77% frente al 73,2% de DiffusionGemma.
¿Qué mejoras de costo y latencia reportó Augment Code?
Augment Code sustituyó Mercury 2 por el Claude Opus 4.7 de Anthropic en su subagente de context-compaction y observó una caída del 82% en la latencia y una reducción del 90% en el costo, manteniendo la misma calidad de salida, según un estudio de caso conjunto.