Google 推出 Gemini Robotics ER 1.6:SOTA 機器人模型,擅長視覺與空間推理

鏈新聞abmedia

Google DeepMind 發表全新的機器人基礎模型 Gemini Robotics ER 1.6,其中 ER 代表 Embodied Reasoning(具身推理)。這款模型在視覺與空間推理方面達到當前最佳水準(SOTA),並已透過 Gemini API 開放使用。Google AI 開發者關係負責人 Logan Kilpatrick 在社群媒體上公布了這項消息。(來源)

什麼是 Embodied Reasoning?

Embodied Reasoning 是指 AI 模型理解並推理物理世界的能力。與傳統的語言模型不同,具身推理模型需要處理三維空間中的物體位置、形狀、材質與物理互動關係。Gemini Robotics ER 1.6 專門針對這類任務進行優化,使機器人能夠更準確地理解周圍環境並做出適當的動作決策。

核心能力

Gemini Robotics ER 1.6 的主要優勢集中在兩個面向:

能力 說明 視覺推理 能夠從影像與影片中辨識物體、理解場景結構,並據此進行決策 空間推理 理解三維空間中物體的相對位置、距離與方向,支援複雜的操作規劃

這兩項能力的結合讓機器人能夠處理更複雜的現實世界任務。例如,在倉儲環境中,機器人需要同時辨識不同形狀的物品,並計算最佳的抓取角度與放置位置 — 這正是 Gemini Robotics ER 1.6 所擅長的場景。

透過 Gemini API 使用

與過去許多僅停留在論文階段的機器人模型不同,Gemini Robotics ER 1.6 已經透過 Gemini API 提供存取。這意味著開發者與硬體廠商可以直接將這款模型整合到自己的機器人系統中,無需從零開始訓練模型。

API 的開放也降低了機器人 AI 的開發門檻。過去,開發一套具備視覺與空間推理能力的機器人系統需要大量的資料收集與模型訓練工作。現在,開發者可以專注在硬體設計與應用場景的開發上,將底層的推理能力交給 Gemini Robotics ER 1.6 處理。

Google 的機器人 AI 布局

Gemini Robotics ER 1.6 是 Google DeepMind 在機器人領域的最新成果。從早期的 RT-2 到現在的 Gemini Robotics 系列,Google 持續將大型語言模型的能力延伸到物理世界的互動中。ER 1.6 版本在前代基礎上進一步提升了推理精度,特別是在需要精細操作的場景中表現更為出色。

隨著機器人產業進入新一輪成長期,具備強大視覺與空間推理能力的基礎模型將成為關鍵基礎設施。想了解更多 Gemini 生態系的發展,可以參考 Gemini 完整指南。

這篇文章 Google 推出 Gemini Robotics ER 1.6:SOTA 機器人模型,擅長視覺與空間推理 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

波士頓動力(Boston Dynamics)將 Google 的 Gemini AI 整合至 Spot 機器人,強化自主能力

波士頓動力(Boston Dynamics)展示了其配備 Google Gemini AI 的 Spot 機器人,讓其在整理與檢查等任務上具備更高的自主能力。整合 AI Vision Inspection 與 Learning 可提升 Spot 對環境數據的分析能力與作業效率。

GateNews7分鐘前

亞馬遜網路服務推出 AI 驅動的藥物發現應用程式

亞馬遜網路服務(Amazon Web Services)推出 Amazon Bio Discovery,這是一個用於藥物開發的 AI 平台,能在不需編碼的情況下精簡工作流程。它有助於選擇藥物分子,並將開發時間大幅從 18 個月縮短到數週,從免費試用開始。

GateNews17分鐘前

南韓 AI 新創 Upstage 以 $130M 系列 C 成為該國首家 AI 独角兽

南韓 AI 新創公司 Upstage 籌得 1800 億韓元 (約 19283746565748392億$130 ,在 C 輪融資中達成估值超過 1 兆韓元,成為該國首家 AI 狂獨角獸(unicorn)。這筆資金將用於擴充基礎建設並支持國際化成長。

GateNews47分鐘前

Google Chrome 新增「技能」功能,讓你保存並重複使用 Gemini 提示(Prompts)

Google Chrome 已推出一項名為「Skills(技能)」的功能,讓使用者能夠在不同網頁之間儲存並重複使用 Gemini 提示。此功能最初提供給英語 (US) 使用者使用,並支援提示編輯;對於某些操作則需要確認。競爭瀏覽器正在進入市場,而 Google 也正在提供各種任務的預設 Skills。

GateNews1小時前

Claude Mythos恐威脅金融安全?美財長、聯準會主席緊急開會警告風險

美國財政部長和聯準會主席召集華爾街高層,警告AI模型Mythos可能對金融體系構成系統性風險。Mythos能自主發現大量漏洞,Anthropic選擇限制其公開發佈,並啟動「玻璃翼計劃」加強網路安全。

CryptoCity1小時前

Anthropic 評值在多項風投投資要約中觸及 $800 十億

AI 新創公司 Anthropic(Claude 的創作者)已吸引多家風險投資(VC)公司的數筆投資提案;據《Business Insider》報導,估值飆升至 $800 billion。

GateNews1小時前
留言
0/400
暫無留言