Google 的 Gemini 3 Deep Think 大升級:推理能力碾壓 Opus 4.6、GPT-5.2,要做「最會科研的 AI」

動區BlockTempo
BTC0.45%

Google 發布 Gemini 3 Deep Think 重大更新,在 ARC-AGI-2 測試中以 84.6% 大幅超越 Claude Opus 4.6(68.8%)和 GPT-5.2(52.9%),同時在 Codeforces 達到「傳奇宗師」等級。
(前情提要:ChatGPT 學習模式問世:家教的黃昏,還是黃金教育時代的黎明?)
(背景補充:Google 正式推出「Gemini 3」!登頂全球最聰明 AI 模型,有什麼亮點?)

本文目錄

  • 不只會考試,還會抓人類的錯
  • 市場份額的地殼變動
  • 對加密產業的漣漪效應
  • 科學決勝局才剛開始

Google 今(13)日發布了 Gemini 3 Deep Think 的重大升級。在 ARC-AGI-2(一個專門防止 AI 背題庫的推理測試,不考你知道多少,考你能不能從幾個範例中自己歸納出規則)測試中,Gemini 3 Deep Think 拿下了 84.6%。

作為參照,Claude Opus 4.6(Thinking Max 模式)拿到 68.8%,GPT-5.2(Thinking xhigh 模式)是 52.9%,而人類平均約 60%。

更驚人的是,在原版 ARC-AGI-1 上,Deep Think 拿到 96%,基本上把這個曾被視為「AI 最難考試之一」的基準測試考到了天花板。

Deep Think 目前開放給 Google AI Ultra 訂閱用戶,API 則面向企業開放早期存取。

不只會考試,還會抓人類的錯

跑分之外,Google 在公告中提到了一個細節:Deep Think 在審閱一篇經過人類同行評審的數學論文時,成功找出了一個之前所有審稿人都沒發現的邏輯漏洞。這篇論文由羅格斯大學(Rutgers University)的數學家確認。

這個案例的重要性在於,它不是模型在標準化測試中的表現,而是在真實的、開放式的科學場景中展現的能力。同行評審是學術界最核心的品質控制機制,如果 AI 能穩定地在這個環節提供有價值的輔助,它對科學研究的加速效應將遠超任何跑分所能衡量。

Deep Think 同時在 2025 年國際物理奧林匹克和化學奧林匹克的筆試部分達到金牌水準,在 Codeforces 上的 Elo 評分為 3,455,對應「傳奇宗師」等級,全球僅極少數人類程式設計師能達到這個層級。

而在「人類最後的考試」(Humanity’s Last Exam)這個由各領域專家設計、刻意讓 AI 難以作答的基準上,Deep Think 拿到 48.4%(不使用工具),也創下新紀錄。

市場份額的地殼變動

AI 三巨頭的技術競賽正在改變市場版圖。ChatGPT 的市佔率已從巔峰時期的 87% 降至約 68%,而 Gemini 從不到 5% 飆升至超過 18%、Anthropic 的 Claude 則穩步蠶食企業級市場。

Google 在這場競賽中的獨特優勢是分發能力。Gemini 內建在 Android 系統、Chrome 瀏覽器、Google Workspace 和搜尋引擎中,這意味著即使在模型能力上與對手打平,Google 也能透過渠道優勢贏得用戶。

但分發優勢是雙面刃。如果 Gemini 的體驗不夠好,它可能會比任何競品更快地失去用戶信任,因為用戶是「被動接觸」而非「主動選擇」。OpenAI 的用戶是主動付費的,天然有更高的容忍度和黏性。

對加密產業的漣漪效應

AI 軍備競賽的每一次升級,都在推高對運算基礎設施的需求。訓練一個前沿模型所需的 GPU 叢集成本已經從 2024 年的數億美元級別,膨脹到 2026 年的數十億美元級別。這也直接影響了兩件事。

**第一,比特幣礦工的轉型路徑。**當挖礦利潤被壓縮(摩根大通本週估算 BTC 生產成本降至 7.7 萬美元,而幣價在 6.6 萬附近),擁有大規模算力基礎設施的礦工正加速轉向 AI 運算服務。

高成本礦企不是「退出」,而是「轉業」,從挖比特幣變成提供 AI 算力的合約收入。

**第二,AI 代幣的敘事。**每當 Google、OpenAI 或 Anthropic 發布重大升級,鏈上 AI 相關代幣(如去中心化運算協議)通常會出現短期炒作。

但這些代幣的基本面問題始終沒變:去中心化運算在延遲和吞吐量上,距離企業級 AI 訓練的需求還有很長的路要走。敘事可以跑得很快,但基礎設施還追不上敘事的速度。

科學決勝局才剛開始

Deep Think 的升級把 Google 又推回了 AI 競賽的領跑位置,至少在推理和科學領域是如此。但如果你仔細看 Google 的公告措辭,會發現一個微妙的定位轉變:它不再強調「最聰明的通用 AI」,而是反覆提及「為科學而生」。

當通用 AI 的基準測試越來越擁擠、差異化越來越難,「我的 AI 能幫你做科學研究」是一個比「我的 AI 跑分最高」更有說服力的價值主張。如果 Deep Think 真的能穩定地輔助同行評審、加速藥物發現、或在物理模擬中找到人類遺漏的解,這比任何跑分榜單都更有意義。

問題是,從「能在基準測試上拿高分」到「能在真實科學場景中可靠地輔助人類」,中間的距離可能比 Google 暗示的更遠,畢竟基準測試有標準答案,科學沒有。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

數據:比特幣在重大衝擊後兩個月內的表現普遍優於黃金與標普 500 指數

Gate News 消息,4 月 5 日,數據顯示,比特幣在全球重大衝擊事件發生後的兩個月內,表現普遍優於黃金和標普 500 指數(美國股市基準指數)。具體數據方面,2025 年 4 月特朗普政府宣布大規模關稅措施後,比特幣在隨後 60 天內上漲 24%,黃金上漲 8%,標普 500 指數上漲 4%。2020 年 3 月新冠疫情爆發初期,比特幣同樣上漲 21%,表現優於黃金和標普 500 指數。

GateNews3小時前

加密貨幣市場呈現複雜訊號,但恐懼仍在延續

加密貨幣市場呈現多空交織的訊號;市值上漲 0.34% 至 2.3T 美元,但交易量下跌 16.99%。比特幣上漲 0.50% 至 66,896.80 美元,而以太幣下跌 0.18% 至 2,053.15 美元。主要漲幅包括 PEPE、TRUMP IP 與 TRUMP MOG,後者出現顯著的價格上漲。去中心化金融(DeFi)的 TVL 下跌 0.35%,NFT 銷售量則下跌 5.18%。值得注意的是,Drift Protocol 在遭遇入侵後出現 40% 的損失,且 Charles Schwab 計畫在 2026 年進行比特幣與以太幣現貨交易。

Block Chain Reporter12小時前

世界黃金協會:各國央行 2 月淨買入 19 噸黃金,中國連續 16 個月增持

世界黃金協會報告顯示,2026年2月各國央行淨買入19噸黃金,儘管低於2025年平均值,但較1月的5噸有所回升。央行對黃金的認可持續增強,捷克和中國均維持連續買金紀錄。高盛和瑞銀預測,金價未來有望上漲。

GateNews17小時前

數位資產 ETP 格局:過去、現在與未來

你需要知道: 在美國批准現貨比特幣ETF之後,數位資產ETP資產在高峰時期飆升至超過2500億美元;截至2025年底,其AUM達到1840億美元,且美國占全球資產近80%。 市場仍然高度集中,主要以比特幣為基礎的產品

CoinDesk20小時前

根據 James Seyffart,比特幣 ETF 的規模將超越黃金 ETF

James Seyffart 預測,隨著投資人需求演變,Bitcoin 現貨 ETF 的管理資產規模可能超越黃金 ETF。Bitcoin 被視為一種多元化的投資選擇,而黃金仍屬傳統資產。儘管近期出現下跌,這兩種資產類別仍已展現可觀的資金流入活動。

Tap Chi Bitcoin23小時前

比特幣 ETF 的規模「將比黃金 ETF 更大」:分析師

根據 ETF 分析師 James Seyffart 的說法,隨著投資人需求擴展超越傳統「數位黃金」敘事,比特幣現貨交易所交易基金(ETF)的總管理資產(AUM)可能會超越黃金 ETF。 「因為有更多用例可以解釋為什麼有人會把比特幣 ETF 放進一個 p

Cointelegraph23小時前
留言
0/400
暫無留言