Google lanza Gemini Robotics ER 1.6: modelo SOTA para robots, experto en razonamiento visual y espacial

Google DeepMind ha presentado un nuevo modelo base para robots, Gemini Robotics ER 1.6, donde ER representa Embodied Reasoning (razonamiento encarnado). Este modelo alcanza el mejor nivel actual (SOTA) en razonamiento visual y espacial, y ya está disponible mediante la Gemini API. Logan Kilpatrick, responsable de relaciones con desarrolladores de Google AI, publicó esta noticia en redes sociales. (Fuente)

¿Qué es el Embodied Reasoning?

Embodied Reasoning se refiere a la capacidad de los modelos de IA para comprender y razonar sobre el mundo físico. A diferencia de los modelos tradicionales de lenguaje, los modelos de razonamiento encarnado necesitan manejar objetos, posiciones en el espacio tridimensional, formas, materiales y relaciones de interacción física. Gemini Robotics ER 1.6 está optimizado específicamente para este tipo de tareas, permitiendo que los robots comprendan con mayor precisión el entorno y tomen decisiones adecuadas de acción.

Capacidades principales

Las principales ventajas de Gemini Robotics ER 1.6 se concentran en dos aspectos:

Capacidad Explicación Razonamiento visual Puede identificar objetos a partir de imágenes y videos, comprender la estructura de la escena y tomar decisiones en función de ello Razonamiento espacial Comprender la posición relativa, la distancia y la dirección de los objetos en el espacio tridimensional, con soporte para una planificación de operaciones compleja

La combinación de estas dos capacidades permite a los robots manejar tareas del mundo real más complejas. Por ejemplo, en entornos de almacén, el robot necesita identificar simultáneamente objetos de diferentes formas y calcular el mejor ángulo de agarre y la posición de colocación; este es precisamente el tipo de escenario en el que destaca Gemini Robotics ER 1.6.

Uso mediante Gemini API

A diferencia de muchos modelos de robots del pasado que solo se quedaban en la fase de artículos, Gemini Robotics ER 1.6 ya ofrece acceso a través de Gemini API. Esto significa que los desarrolladores y los fabricantes de hardware pueden integrar directamente este modelo en sus propios sistemas de robots, sin necesidad de entrenar el modelo desde cero.

La apertura de la API también reduce el umbral de desarrollo de la IA para robots. Antes, desarrollar un sistema de robots con capacidades de razonamiento visual y espacial requería una gran cantidad de recolección de datos y trabajo de entrenamiento de modelos. Ahora, los desarrolladores pueden centrarse en el desarrollo del diseño de hardware y en los escenarios de aplicación, dejando las capacidades de razonamiento subyacentes a Gemini Robotics ER 1.6.

Diseño de la IA robótica de Google

Gemini Robotics ER 1.6 es el último logro de Google DeepMind en el campo de la robótica. Desde el RT-2 de los inicios hasta la serie Gemini Robotics de hoy, Google continúa extendiendo las capacidades de los grandes modelos de lenguaje a la interacción con el mundo físico. La versión ER 1.6 mejora aún más la precisión del razonamiento sobre la base de las generaciones anteriores, mostrando un rendimiento especialmente excelente en escenarios que requieren operaciones finas.

A medida que la industria de la robótica entra en una nueva etapa de crecimiento, los modelos base con capacidades sólidas de razonamiento visual y espacial se convertirán en infraestructura clave. Para saber más sobre el desarrollo del ecosistema Gemini, puedes consultar la guía completa de Gemini.

Este artículo Google presenta Gemini Robotics ER 1.6: modelo SOTA para robots, experto en razonamiento visual y espacial apareció por primera vez en Cadena Noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

DeepSeek-V4 en versión preliminar publicado con ventana de contexto de 1M; la solución de IA de Huawei DCS brinda soporte completo

Mensaje de Gate News, 25 de abril — La versión preliminar de DeepSeek-V4 se ha lanzado oficialmente y se ha publicado como código abierto, con una ventana de contexto ampliada de 1 millón de tokens e introduciendo KV Cache con ventana deslizante mediante algoritmos de compresión para reducir la complejidad computacional de la Atención y la presión del ancho de banda de memoria.

GateNewsHace3m

Regresa la escasez de GPU mientras Microsoft y Amazon ajustan el suministro; las startups de IA enfrentan un aumento del 32% en precios y colas hasta fin de año

Mensaje de Gate News, 25 de abril — Vuelve a aparecer una escasez de GPU mientras los principales proveedores de nube, incluidos Microsoft y Amazon, concentran capacidad de cómputo en equipos internos y grandes clientes como OpenAI y Anthropic, dejando que las empresas emergentes de IA más pequeñas enfrenten aumentos de precios, tiempos de espera prolongados y términos de contrato más estrictos.

GateNewshace1h

Nvidia在Blackwell基础设施上将OpenAI Codex AI代理部署至全体员工

消息快报,4月25日——据首席执行官Jensen Huang和OpenAI首席执行官Sam Altman的内部沟通内容,Nvidia已在成功试点后,将OpenAI的Codex这一由GPT-5.5驱动的AI代理面向其全体员工部署,试点约涉及10,000名员工。 Codex旨在用于

GateNewshace2h

El Departamento de Estado de EE. UU. advierte sobre la destilación del modelo de IA DeepSeek

El Departamento de Estado de EE. UU. emitió un cable el 24 de abril a las misiones diplomáticas y consulares de todo el mundo, advirtiendo a gobiernos extranjeros sobre los esfuerzos de China por copiar sistemas de IA estadounidenses mediante destilación, según Reuters. El cable

CryptoFrontierhace2h

La startup de IA para la salud del profesor de Stanford busca $100M con una valoración de $1B

Mensaje de Gate News, 25 de abril — El profesor de Stanford James Zou está recaudando aproximadamente $100 millones para Human Intelligence, una startup de California que desarrolla modelos de IA para la fisiología humana, con una valoración de alrededor de $1 mil millones. La empresa se basa en la investigación de Zou en fisiología e IA. El algoritmo EchoNet de su laboratorio

GateNewshace2h

La startup de codificación con IA Cognition conversa sobre una ronda de financiación con valoración de $25B

Mensaje de Gate News, 25 de abril — La startup de codificación con IA Cognition está en conversaciones iniciales para recaudar cientos de millones de dólares o más, aproximadamente con una valoración de $25 mil millones, según personas familiarizadas con el asunto. El interés ha aumentado tras la adquisición por parte de SpaceX de una startup rival de codificación con IA. Co

GateNewshace2h
Comentar
0/400
Sin comentarios