Google 的 Gemini 3 Deep Think 大升級：推理能力碾壓 Opus 4.6、GPT-5.2，要做「最會科研的 AI」

動區BlockTempo

2026-02-13 03:05:30

BTC0.45%

Google 發布 Gemini 3 Deep Think 重大更新，在 ARC-AGI-2 測試中以 84.6% 大幅超越 Claude Opus 4.6（68.8%）和 GPT-5.2（52.9%），同時在 Codeforces 達到「傳奇宗師」等級。
（前情提要：ChatGPT 學習模式問世：家教的黃昏，還是黃金教育時代的黎明？）
（背景補充：Google 正式推出「Gemini 3」！登頂全球最聰明 AI 模型，有什麼亮點？）

本文目錄

不只會考試，還會抓人類的錯
市場份額的地殼變動
對加密產業的漣漪效應
科學決勝局才剛開始

Google 今（13）日發布了 Gemini 3 Deep Think 的重大升級。在 ARC-AGI-2（一個專門防止 AI 背題庫的推理測試，不考你知道多少，考你能不能從幾個範例中自己歸納出規則）測試中，Gemini 3 Deep Think 拿下了 84.6%。

作為參照，Claude Opus 4.6（Thinking Max 模式）拿到 68.8%，GPT-5.2（Thinking xhigh 模式）是 52.9%，而人類平均約 60%。

更驚人的是，在原版 ARC-AGI-1 上，Deep Think 拿到 96%，基本上把這個曾被視為「AI 最難考試之一」的基準測試考到了天花板。

Deep Think 目前開放給 Google AI Ultra 訂閱用戶，API 則面向企業開放早期存取。

不只會考試，還會抓人類的錯

跑分之外，Google 在公告中提到了一個細節：Deep Think 在審閱一篇經過人類同行評審的數學論文時，成功找出了一個之前所有審稿人都沒發現的邏輯漏洞。這篇論文由羅格斯大學（Rutgers University）的數學家確認。

這個案例的重要性在於，它不是模型在標準化測試中的表現，而是在真實的、開放式的科學場景中展現的能力。同行評審是學術界最核心的品質控制機制，如果 AI 能穩定地在這個環節提供有價值的輔助，它對科學研究的加速效應將遠超任何跑分所能衡量。

Deep Think 同時在 2025 年國際物理奧林匹克和化學奧林匹克的筆試部分達到金牌水準，在 Codeforces 上的 Elo 評分為 3,455，對應「傳奇宗師」等級，全球僅極少數人類程式設計師能達到這個層級。

而在「人類最後的考試」（Humanity’s Last Exam）這個由各領域專家設計、刻意讓 AI 難以作答的基準上，Deep Think 拿到 48.4%（不使用工具），也創下新紀錄。

市場份額的地殼變動

AI 三巨頭的技術競賽正在改變市場版圖。ChatGPT 的市佔率已從巔峰時期的 87% 降至約 68%，而 Gemini 從不到 5% 飆升至超過 18%、Anthropic 的 Claude 則穩步蠶食企業級市場。

Google 在這場競賽中的獨特優勢是分發能力。Gemini 內建在 Android 系統、Chrome 瀏覽器、Google Workspace 和搜尋引擎中，這意味著即使在模型能力上與對手打平，Google 也能透過渠道優勢贏得用戶。

但分發優勢是雙面刃。如果 Gemini 的體驗不夠好，它可能會比任何競品更快地失去用戶信任，因為用戶是「被動接觸」而非「主動選擇」。OpenAI 的用戶是主動付費的，天然有更高的容忍度和黏性。

對加密產業的漣漪效應

AI 軍備競賽的每一次升級，都在推高對運算基礎設施的需求。訓練一個前沿模型所需的 GPU 叢集成本已經從 2024 年的數億美元級別，膨脹到 2026 年的數十億美元級別。這也直接影響了兩件事。

**第一，比特幣礦工的轉型路徑。**當挖礦利潤被壓縮（摩根大通本週估算 BTC 生產成本降至 7.7 萬美元，而幣價在 6.6 萬附近），擁有大規模算力基礎設施的礦工正加速轉向 AI 運算服務。

高成本礦企不是「退出」，而是「轉業」，從挖比特幣變成提供 AI 算力的合約收入。

**第二，AI 代幣的敘事。**每當 Google、OpenAI 或 Anthropic 發布重大升級，鏈上 AI 相關代幣（如去中心化運算協議）通常會出現短期炒作。

但這些代幣的基本面問題始終沒變：去中心化運算在延遲和吞吐量上，距離企業級 AI 訓練的需求還有很長的路要走。敘事可以跑得很快，但基礎設施還追不上敘事的速度。

科學決勝局才剛開始

Deep Think 的升級把 Google 又推回了 AI 競賽的領跑位置，至少在推理和科學領域是如此。但如果你仔細看 Google 的公告措辭，會發現一個微妙的定位轉變：它不再強調「最聰明的通用 AI」，而是反覆提及「為科學而生」。

當通用 AI 的基準測試越來越擁擠、差異化越來越難，「我的 AI 能幫你做科學研究」是一個比「我的 AI 跑分最高」更有說服力的價值主張。如果 Deep Think 真的能穩定地輔助同行評審、加速藥物發現、或在物理模擬中找到人類遺漏的解，這比任何跑分榜單都更有意義。

問題是，從「能在基準測試上拿高分」到「能在真實科學場景中可靠地輔助人類」，中間的距離可能比 Google 暗示的更遠，畢竟基準測試有標準答案，科學沒有。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

數據：比特幣在重大衝擊後兩個月內的表現普遍優於黃金與標普 500 指數

比特币新聞全球市場行業報告

Gate News 消息，4 月 5 日，數據顯示，比特幣在全球重大衝擊事件發生後的兩個月內，表現普遍優於黃金和標普 500 指數（美國股市基準指數）。具體數據方面，2025 年 4 月特朗普政府宣布大規模關稅措施後，比特幣在隨後 60 天內上漲 24%，黃金上漲 8%，標普 500 指數上漲 4%。2020 年 3 月新冠疫情爆發初期，比特幣同樣上漲 21%，表現優於黃金和標普 500 指數。

GateNews3小時前

加密貨幣市場呈現複雜訊號，但恐懼仍在延續

每日新聞行情分析價格異動全球市場

加密貨幣市場呈現多空交織的訊號；市值上漲 0.34% 至 2.3T 美元，但交易量下跌 16.99%。比特幣上漲 0.50% 至 66,896.80 美元，而以太幣下跌 0.18% 至 2,053.15 美元。主要漲幅包括 PEPE、TRUMP IP 與 TRUMP MOG，後者出現顯著的價格上漲。去中心化金融（DeFi）的 TVL 下跌 0.35%，NFT 銷售量則下跌 5.18%。值得注意的是，Drift Protocol 在遭遇入侵後出現 40% 的損失，且 Charles Schwab 計畫在 2026 年進行比特幣與以太幣現貨交易。

Block Chain Reporter12小時前

世界黃金協會：各國央行 2 月淨買入 19 噸黃金，中國連續 16 個月增持

貨幣政策全球市場

世界黃金協會報告顯示，2026年2月各國央行淨買入19噸黃金，儘管低於2025年平均值，但較1月的5噸有所回升。央行對黃金的認可持續增強，捷克和中國均維持連續買金紀錄。高盛和瑞銀預測，金價未來有望上漲。

GateNews17小時前

數位資產 ETP 格局：過去、現在與未來

全球市場行業報告

你需要知道：在美國批准現貨比特幣ETF之後，數位資產ETP資產在高峰時期飆升至超過2500億美元；截至2025年底，其AUM達到1840億美元，且美國占全球資產近80%。市場仍然高度集中，主要以比特幣為基礎的產品

CoinDesk20小時前

根據 James Seyffart，比特幣 ETF 的規模將超越黃金 ETF

比特币新聞行情分析全球市場

James Seyffart 預測，隨著投資人需求演變，Bitcoin 現貨 ETF 的管理資產規模可能超越黃金 ETF。Bitcoin 被視為一種多元化的投資選擇，而黃金仍屬傳統資產。儘管近期出現下跌，這兩種資產類別仍已展現可觀的資金流入活動。

Tap Chi Bitcoin23小時前

比特幣 ETF 的規模「將比黃金 ETF 更大」：分析師

比特币新聞行情分析資金流向全球市場

根據 ETF 分析師 James Seyffart 的說法，隨著投資人需求擴展超越傳統「數位黃金」敘事，比特幣現貨交易所交易基金（ETF）的總管理資產（AUM）可能會超越黃金 ETF。「因為有更多用例可以解釋為什麼有人會把比特幣 ETF 放進一個 p

Cointelegraph23小時前

留言

0/400

暫無留言