智元 GE-Sim 2.0:用 World Model 生成世界,宇樹勁敵將人形機器人推向自我進化

鏈新聞abmedia

具身智慧(Embodied AI)正迎來一個關鍵轉折點。中國智元機器人近期發布 Genie Envisioner World Simulator 2.0(GE-Sim 2.0),試圖將 World Model(世界模型)從單純理解環境的工具,推進為可以直接運行、訓練與優化機器人的世界模擬器(World Simulator)。

如果你還不了解這有多關鍵,不妨先看看 LLM 架構的硬傷:訓練邏輯上現存 LLM 只是根據龐大語料庫來預測上下文,它可以知道「蘋果掉下來」這幾個字常一起出現,但並不真正理解重力或物理世界的因果關係。

這就是為什麼楊立昆、李飛飛等科學家都投身於 World Model 賽道,當 AI 具備對 3D 環境的理解與物理預測能力後,這項技術將成為自主機器人、自動駕駛與智慧製造等「實體AI」(Physical AI)的數位大腦。因此,World Model 的路線主張,機器人將會是十分關鍵的載體。如今等身機器人廠商智元機器人入局,象徵中國從硬體逆襲的先鋒。

先前台積電董事長魏哲家曾表示:如果看中國大陸一直弄機器人可跳來跳去蹦蹦跳。那個沒用,只是好看頭而已。他指出關鍵在於要讓機器人大腦能運作,而大腦誰在做,輝達 (Nvidia)、超微 (AMD) 與一堆美國公司,但 95% 大腦是台積電製造。GE-Sim 2.0 發展瓶頸仍在,與中國的模型發展強綁定。

World Model 的路線主張,機器人是關鍵

當前主流的 LLM 依靠龐大的語料庫與統計關係來理解上下文,並預測下一個詞語。它可以知道「蘋果掉下來」這幾個字常一起出現,但並不真正理解重力或物理世界的因果關係。

這種模式在文本生成、程式輔助或問答任務上表現出色,但在需要理解現實世界結構、推理因果關係與長期規劃的場景中,仍存在根本限制。更大的問題在於數據來源正在逐漸枯竭。LLM 的訓練高度依賴高品質人類資料,而近年業界已開始警告,可用的人類文本資料可能在未來幾年內被消耗殆盡。屆時就像近親繁殖可能遺傳缺陷,最終導致模型逐漸偏離現實並出現性能退化。

(深度解析:LLM 存在缺陷?為何楊立昆的 AMI 押注 World Model 路線)

這也是為什麼近年 AI 學界兩位重量級人物楊立昆與被稱為「AI 教母」的李飛飛(Fei-Fei Li)都選擇押在被稱為 World Model(世界模型) 的新一代 AI 架構。

當時筆者曾表示:延伸來看,當 AI 具備對 3D 環境的理解與物理預測能力後,這項技術將成為自主機器人、自動駕駛與智慧製造等「實體AI」(Physical AI)的數位大腦。因此,World Model 的路線主張,機器人將會是十分關鍵的載體。如今等身機器人廠商智元機器人入局,象徵中國從硬體逆襲的先鋒。

先前台積電董事長魏哲家,在談及機器人與半導體發展時直言,如果看中國大陸一直弄機器人可跳來跳去蹦蹦跳。那個沒用,只是好看頭而已。他指出關鍵在於要讓機器人大腦能運作,而大腦誰在做,輝達 (Nvidia)、超微 (AMD) 與一堆美國公司,但 95% 大腦是台積電製造。

(台積電魏哲家酸:中國機器人蹦蹦跳,只是好看頭沒用!關鍵仍來自輝達)

World Model 進化:從理解世界,到在世界中學習

過去幾年,World Model 一直被視為 AI 理解現實的關鍵技術。透過影像、語言與感測數據,模型可以預測環境變化,讓機器人具備基本決策能力。

但 GE-Sim 2.0 的核心突破在於不只是理解世界,而是直接在「模型生成的世界」中學習與行動系統將行動(Action)納入核心變數,從傳統的狀態預測,升級為完整循環:

State

Action

State Evolution

這意味著,機器人不再只是觀察與回應,而是能在模擬環境中主動試錯、自主優化、持續學習。這種轉變,使 World Model 從「認知模型」進化為「訓練基礎設施」。

GE-Sim 2.0:讓機器人在虛擬世界中「進化」

GE-Sim 2.0 被定義為一套「具身世界模擬器」,核心目標是解決現實訓練的三大瓶頸:成本過高、數據不足、難以規模化。透過模型生成環境,系統可以在不依賴真實世界的情況下,大規模訓練機器人。

技術上,GE-Sim 2.0 整合三個關鍵能力:首先是「動作驅動影像生成」,模型能根據機器人動作生成對應的未來畫面,並保持多視角一致性,包括頭部視角與左右手操作視角。

其次是本體感知(proprioception)建模,不只模擬外部畫面,還能預測機器人自身關節與動作狀態,讓決策更接近真實物理世界。

第三是「自動任務評估」,透過內建的 reward model(獎勵模型),系統可自動判斷任務是否完成,例如「將藍色物體放入紅色盒子」,並給出回饋,直接用於強化學習。這使得機器人可以在模擬環境中完成完整閉環:

GE-Sim 2.0 已能實現「分鐘級」穩定影片生成

相較早期模型僅能生成短片段,GE-Sim 2.0 已能實現「分鐘級」穩定影片生成,支援長時間任務模擬。同時,透過大規模真實數據(遠端操作、部署與交互數據)訓練,模型在不同場景與任務間具備更強泛化能力。這一點對於人形機器人尤其關鍵:因為現實世界的操作高度多變,無法單靠固定場景訓練。

World Simulator 的出現,意味著機器人可以在虛擬世界中「無限練習」這將帶來兩個結構性變化:第一,訓練成本大幅下降。第二,能力迭代速度呈指數級提升。

智元機器人:中國人形機器人新勢力

智元機器人 成立於 2023 年,由華為「天才少年」彭志輝 創辦,專注於 AI 與機器人融合的具身智能領域。

公司核心產品包括:

「遠征」系列人形機器人

「靈犀」機器人系統

通用大模型 GO-1

目前已完成多輪融資,並獲紅杉中國、高瓴資本等機構投資,被視為中國人形機器人領域的重要玩家,與宇樹科技形成競爭格局。

這篇文章 智元 GE-Sim 2.0:用 World Model 生成世界,宇樹勁敵將人形機器人推向自我進化 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Meta 股價上漲 1.73%,公司計劃自 5 月 20 日起裁減 8,000 個職位

Meta Platforms 計劃自 5 月 20 日起裁減約 8,000 個職位,約佔其員工規模的 10%,即使股價仍在上漲。該公司營收超過 $200 十億美元,正值重大重組之際,將重點放在 AI 投資上,並與產業中裁員的趨勢一致。

GateNews43分鐘前

Google年度報告稱Gemini實現毫秒攔截,阻擋99%詐騙廣告

文章討論了Google透過其生成式人工智慧系統Gemini加強廣告安全,報告顯示其攔截違規廣告的速度已縮短至毫秒,攔截率達99%。去年Google移除83億則廣告,並暫停2490萬個帳戶,顯示詐騙廣告數量大幅上升。專家指出,這是人工智慧與人工智慧間的對抗,未來仍需面對AI帶來的合法與非法行為的挑戰。

鏈新聞abmedia2小時前

以太坊聯合創始人盧賓:AI 將是加密的關鍵轉折點,但科技巨頭壟斷帶來系統性風險

以太坊聯合創始人約瑟夫·盧賓(Joseph Lubin)強調,AI 對加密貨幣產業具備改變格局的潛力,同時也提醒大型科技公司之間的集中化所帶來的風險。他設想區塊鏈上的由 AI 驅動的自主交易,並指出傳統金融與 DeFi 的融合正在加速。

GateNews4小時前

Elon Musk 推動「全民高收入」支票,作為 AI 失業的終極解決方案

Elon Musk主張「全民高收入」以因應由AI引發的失業問題,並展望一個物資充裕且零通膨的未來。相較之下,像是Sam Altman這樣的專家則對工作流失提出疑慮,並建議為勞工提供保護措施。

Coinpedia4小時前

據報導:DeepSeek推出首次對外募資輪,目標估值達100億美元以上及3億美元以上

DeepSeek,一家中國AI新創公司,正在洽談其首次對外融資輪,目標至少$300 百萬,估值達到$10 十億。儘管此前曾拒絕投資邀約,但據報導,其募資討論如今已在進行中。

GateNews5小時前

ChatGPT 廣告進軍澳紐加:Free 與 Go 用戶先行,付費方案維持無廣告

OpenAI於2023年4月17日擴展ChatGPT廣告至澳洲、紐西蘭及加拿大,針對Free與Go用戶,付費用戶無廣告。此舉標誌著AI商業化的第二條路徑,並考量了商業與監管風險,廣告出現可促進付費轉換。

鏈新聞abmedia7小時前
留言
0/400
暫無留言