Google DeepMind hat ein neues Roboter-Basismodell, Gemini Robotics ER 1.6, veröffentlicht, wobei ER für Embodied Reasoning (verkörpertes Schlussfolgern) steht. Dieses Modell erreicht im Bereich visuelles und räumliches Schlussfolgern derzeit den besten Stand der Technik (SOTA) und ist bereits über die Gemini API zugänglich gemacht worden. Der Verantwortliche für Developer Relations bei Google AI, Logan Kilpatrick, hat diese Nachricht in den sozialen Medien bekannt gegeben. (Quelle)
Was ist Embodied Reasoning?
Embodied Reasoning bezeichnet die Fähigkeit von KI-Modellen, die physische Welt zu verstehen und darüber Schlussfolgerungen zu ziehen. Im Unterschied zu traditionellen Sprachmodellen müssen verkörperte Schlussfolgerungsmodelle Objekte in einem dreidimensionalen Raum, einschließlich ihrer Positionen, Formen, Materialien und physischer Interaktionsbeziehungen, verarbeiten. Gemini Robotics ER 1.6 ist speziell für solche Aufgaben optimiert, damit Roboter die Umgebung genauer verstehen und angemessene Entscheidungen für ihr Handeln treffen können.
Kernfähigkeiten
Die wichtigsten Vorteile von Gemini Robotics ER 1.6 konzentrieren sich auf zwei Aspekte:
Fähigkeit Beschreibung Visuelles Schlussfolgern Kann Objekte aus Bildern und Videos erkennen, die Struktur einer Szene verstehen und darauf basierend Entscheidungen treffen Räumliches Schlussfolgern Versteht die relative Position, Entfernung und Richtung von Objekten im dreidimensionalen Raum und unterstützt komplexe Interaktions- und Handlungsplanung
Durch die Kombination dieser beiden Fähigkeiten kann der Roboter komplexere Aufgaben in der realen Welt bewältigen. Beispielsweise muss er in einer Lagerumgebung gleichzeitig verschiedene Gegenstände unterschiedlicher Formen erkennen und anschließend den optimalen Greifwinkel sowie die Platzierungsposition berechnen – genau das ist eine Stärke von Gemini Robotics ER 1.6.
Über die Gemini API nutzen
Im Gegensatz zu vielen früheren Roboter-Modellen, die bislang nur im Stadium von Forschungsarbeiten verblieben sind, bietet Gemini Robotics ER 1.6 nun den Zugriff über die Gemini API. Das bedeutet, dass Entwickler und Hardwarehersteller dieses Modell direkt in ihre eigenen Robotersysteme integrieren können, ohne das Modell von Grund auf neu trainieren zu müssen.
Die Öffnung der API senkt außerdem die Einstiegshürde für die Entwicklung von Robotik-KI. In der Vergangenheit erforderte es viel Datenerhebung und Modelltraining, ein Robotersystem mit visuellen und räumlichen Schlussfolgerungsfähigkeiten zu entwickeln. Jetzt können sich Entwickler auf die Entwicklung von Hardwaredesign und Anwendungsszenarien konzentrieren und die zugrunde liegende Schlussfolgerungsfähigkeit Gemini Robotics ER 1.6 überlassen.
Googles Roboter-KI-Layout
Gemini Robotics ER 1.6 ist das neueste Ergebnis von Google DeepMind im Bereich Robotik. Vom frühen RT-2 bis zur heutigen Gemini Robotics-Reihe erweitert Google kontinuierlich die Fähigkeiten großer Sprachmodelle auf Interaktionen in der physischen Welt. Die Version ER 1.6 verbessert die Schlussfolgerungsgenauigkeit auf Basis der Vorgängerversionen weiter und zeigt insbesondere in Szenarien mit feinen manuellen bzw. präzisen Handhabungen deutlich stärkere Leistungen.
Mit dem Eintritt der Roboterindustrie in eine neue Wachstumsphase werden Basismodelle mit starker visueller und räumlicher Schlussfolgerungsfähigkeit zu einer entscheidenden grundlegenden Infrastruktur. Wenn Sie mehr über die Entwicklung des Gemini-Ökosystems erfahren möchten, können Sie sich auf den vollständigen Gemini-Leitfaden beziehen.
Dieser Artikel Google bringt Gemini Robotics ER 1.6 auf den Markt: SOTA-Roboter-Modell, stark in visuellem und räumlichem Schlussfolgern erschien zuerst bei Kettennachrichten ABMedia.