👀 家人們,每天看行情、刷大佬觀點,卻從來不開口說兩句?你的觀點可能比你想的更有價值!
廣場新人 & 回歸福利正式上線!不管你是第一次發帖還是久違回歸,我們都直接送你獎勵!🎁
每月 $20,000 獎金等你來領!
📅 活動時間: 長期有效(月底結算)
💎 參與方式:
用戶需爲首次發帖的新用戶或一個月未發帖的回歸用戶。
發帖時必須帶上話題標籤: #我在广场发首帖 。
內容不限:幣圈新聞、行情分析、曬單吐槽、幣種推薦皆可。
💰 獎勵機制:
必得獎:發帖體驗券
每位有效發帖用戶都可獲得 $50 倉位體驗券。(注:每月獎池上限 $20,000,先到先得!如果大家太熱情,我們會繼續加碼!)
進階獎:發帖雙王爭霸
月度發帖王: 當月發帖數量最多的用戶,額外獎勵 50U。
月度互動王: 當月帖子互動量(點讚+評論+轉發+分享)最高的用戶,額外獎勵 50U。
📝 發帖要求:
帖子字數需 大於30字,拒絕純表情或無意義字符。
內容需積極健康,符合社區規範,嚴禁廣告引流及違規內容。
💡 你的觀點可能會啓發無數人,你的第一次分享也許就是成爲“廣場大V”的起點,現在就開始廣場創作之旅吧!
李飛飛談 LLM 下一步:AI 必須擁有「空間智慧」才能理解真實世界,Marble 如何實現?
World Labs 創辦人,有「AI 教母」美譽的李飛飛接受專訪,討論 AI 需超越語言,發展「空間智慧」,讓機器真正理解並建構 3D 物理世界。 (前情提要:a16z 前合夥人重磅科技報告:AI 如何吞噬世界?) (背景補充:橋水達利歐:現在拋售AI股票還太早!因為「刺破泡沫的針」還沒上場) 在大型語言模型席捲全球的當下,被譽為「AI 教母」的史丹佛大學教授李飛飛(Fei-Fei Li),已經將目光投向了人工智慧的下一個疆界:空間智慧(Spatial Intelligence)。 在離開 Google Cloud 後,李飛飛創辦了備受矚目的新創公司 World Labs,並推出了首款世界模型產品 Marble。在本次《Eye on AI》的深度訪談中,李飛飛詳細闡述了為何 AI 不能僅止於理解文字,而必須具備「看見」、「感知」並「構建」3D 世界的能力。 本篇訪談觸及了許多核心議題,包括: 超越語言: 為什麼人類知識無法完全被文字捕捉,AI 需要多模態的學習? 技術解密: World Labs 的「RTFM」模型如何僅用一張 GPU 就能生成具備幾何一致性的 3D 世界? 學術觀點: 李飛飛的方法論與 Meta 首席 AI 科學家 Yann LeCun 的世界模型理念有何異同? 未來展望: AI 何時能真正理解物理定律,甚至展現出科學探索的創造力? 以下是本次精彩對話的完整中譯。 主持人: 我不想花太多時間談論 Marble——也就是妳那個能生成讓觀眾在其中移動的、具有一致性和持久性 3D 世界的新模型,雖然它真的很棒。我想更多地探討妳為什麼專注於「世界模型」和「空間智慧」?為什麼這對於超越語言學習是必要的?以及妳的方法與 Yann LeCun(楊立昆)的方法有何不同? 首先能請妳談談,世界模型是從妳在環境智慧(Ambient Intelligence)的研究中衍生出來的,還是一個平行的研究軌道? 李飛飛: 過去幾年我一直在思考的空間智慧工作,確實是我整個職業生涯專注於電腦視覺和視覺智慧的延續。我之所以強調「空間」,是因為我們的技術已經發展到一個程度,其複雜度和深層能力不再僅止於看圖或理解簡單影片。它是深度的感知、空間性的,並且連接到機器人技術、具身 AI 和環境 AI。所 以從這個角度來看,這真的是我在電腦視覺和 AI 領域生涯的延續。 主持人: 關於空間智慧的重要性,我在這個 Podcast 上也談過一陣子。語言模型是從編碼在文字中的人類知識學習的,但那只是人類知識的一小部分。正如妳和其他許多人指出的,人類很多時候是在沒有語言的情況下透過與世界互動來學習的。所以這很重要,儘管目前的 LLM 很驚人,但我們若要超越它們,就需要開發出能更直接體驗世界、直接從世界中學習的模型。 妳的方法——當然 Marble 是個例子——是提取模型學到的世界內部表徵(internal representations),並用這些表徵創造出一個外部的視覺實境。而 LeCun(楊立昆) 的方法則是從直接體驗或影片輸入中建立內部表徵,讓模型學習運動物理定律之類的東西。這兩者之間有平行關係嗎?這兩種方法是互補的還是重疊的? 李飛飛: 首先,我其實不會把我與 Yann 對立起來,因為我認為我們都處於通往空間智慧和世界模型的學術光譜上。妳可能讀過我最近發表的長文《空間智慧宣言(Manifesto of Spatial Intelligence)》,我在裡面說得很清楚。我實際上認為,如果我們最終要考慮一個通用的、全能的世界模型,那麼「隱式表徵(implicit representation)」和最終某種程度的「顯式表徵(explicit representation)」——特別是在輸出層——可能都是需要的。它們各自扮演不同的角色。 例如,World Labs 目前的世界模型 Marble 確實會明確輸出 3D 表徵,但在模型內部,除了顯式輸出外,其實也存在隱式表徵。老實說,我認為最終我們兩者都需要。 至於輸入模態,是的,從影片中學習非常重要。整個世界是由大量連續幀數組成的輸入,但對於智慧體或僅僅是動物來說,世界不僅是被動的觀看。它還包含運動、互動、觸覺體驗、聲音、氣味以及物理力、溫度等具身(embodied)體驗。所以我認為這是深度的多模態(multimodal)。 當然,Marble 作為一個模型只是第一步,但在我們幾天前發布的技術文章中,我們很清楚地表明,我們相信多模態既是一種學習範式,也是一種輸入範式。關於這一點有很多學術討論,這也顯示了這個領域早期的興奮感。所以我不會說我們已經完全探索完了確切的模型架構和表徵形式。 主持人: 在妳的世界模型中,輸入主要是影片,然後模型會建立一個世界的內部表徵嗎? 李飛飛: 不完全是。如果你體驗過我們的世界模型 Marble,它的輸入其實非常多模態。你可以使用純文字、單張或多張圖片、影片,也可以輸入粗略的 3D 佈局(如方塊或體素 Voxels)。所以它是多模態的,而且我們會隨著發展繼續深化這一點。 主持人: 除了作為一個擁有許多應用的出色產品外,妳的野心是否在於建立一個系統——就像我說輸入是影片那樣——一個能從直接經驗中學習的系統?無論是透過影片還是其他模態,而不是透過像文字這樣的次級媒介來學習? 李飛飛: 是的,我認為世界模型就是關於學習這個世界,而世界是非常多模態的。無論是機器還是動物,我們都是多重感官的。學習是透過感知進行的,而感知有不同的模態。 文字是其中一種形式。這也是我們與動物不同的地方,因為大多數動物不透過複雜的語言學習,但人類會。不過,今天的 AI 世界模型會從大量的語言輸入以及其他模態中學習,但不會僅僅被限縮在語言這一種管道中。 主持人: LLM 的限制之一是模型參數在訓練後就固定了,模型不會持續學習。雖然在測試推論(inference)時有一定程度的學習,但這也是你們在世界模型中要解決的問題嗎?因為照理說,世界模型在遇到新環境時應該要能持續學習。 李飛飛: 是的…