Inception Labs 的 Mercury 2 在 AIME 2026 評分 90，超越 Google 的 DiffusionGemma

2026-06-21 16:12:51

Inception Labs 於週四推出 Mercury 2，並將其定位為世界上最快的推理語言模型，速度約為每秒 1,000 tokens。該模型在 AIME 2026 基準測試中得分 90，超越 Google 近期發布的 DiffusionGemma；後者在同一測試中達到 69.1%，且產生速度相近。兩個模型都採用基於擴散（diffusion）的平行生成，而非依序處理 token，反映整個產業在架構上轉向更快速的推論方法。

Mercury 2 在數學基準上超越 DiffusionGemma

根據 Inception Labs 的公告，Mercury 2 每秒可生成約 1,000 tokens（AI 模型讀取與輸出的文字片段），而 Anthropic 的 Claude Haiku 4.5 推理則約為每秒 89 tokens，OpenAI 的 GPT-5 Mini 為 71。AIME 2026 由真實的美國全國高中數學競賽（American Invitational Mathematics Examination）題目構建，得分方式為正確解出的百分比；Mercury 2 得到 90%。Google 將 DiffusionGemma 也測試在相同題組上，得分為 69.1%；而標準、非擴散版本的 Gemma 4 在同一測試中得分為 88.3%。

在 GPQA（高階科學基準，等同博士級）上，兩個模型幾乎打平：Mercury 2 為 77%，而 DiffusionGemma 為 73.2%。Google 的開發者指南建議在需要最大品質的應用中使用標準 Gemma 4，承認 DiffusionGemma 在各方面都落後。DiffusionGemma 在 Hugging Face 上提供免費且開放權重。Mercury 2 是付費、封閉權重的 API 模型。

擴散模型取代依序 token 生成

兩個模型都不再採用打字機式的寫作方式。一般聊天機器人會寫下一個單字，檢查自己剛寫了什麼，接著再寫下一個，直到答案完成。擴散模型則是先用隨機的佔位 token 填滿一整段文字，然後在少量幾次平行傳遞中逐步擦除雜訊——這和影像生成器（如 Stable Diffusion）把靜態畫面轉成照片的同一招——直到整段內容一次性鎖定成完成的回應。

Augment Code：生產環境延遲降低 82%

Augment Code 是一家 AI 程式碼代理（coding-agent）公司；根據共同案例研究報告，它將 Mercury 2 取代了 Claude Opus 4.7，放在其 context-compaction 子代理中，並看到延遲降低 82%、成本降低 90%，同時報告輸出品質相同。

Inception Labs 拿到 5,000 萬美元融資

Inception Labs 募得 5,000 萬美元融資，由 Nvidia 的投資部門以及個人投資人 Andrew Ng 與 Andrej Karpathy 支持。該新創公司建立在其創辦人 Stefano Ermon 的研究之上；Ermon 是斯坦福教授，曾共同撰寫一些支撐今日影像生成器的基於分數（score-based）擴散技術。

平行生成讓多代理系統架構成形

複雜的 AI 系統像是編曲樂團：有負責深入推理的、負責快速摘要的多個成員、負責路由、工具查找、輸出檢查的模組。依序模型讓這些效用呼叫變得昂貴且緩慢。平行擴散模型則讓它們變得足夠便宜與快速，能夠更大幅度地被使用。就目前而言，Mercury 2 是 API/雲端；完整的生態系統——本地執行環境、代理框架——仍在追趕中。

擴散方法特別適合對速度敏感的工作流程

適用情境包括即時程式設計（模型能跟上編輯）、多代理程式碼或支援系統（會發生大量快速子呼叫）、不讓人覺得延遲的語音介面，以及任何對延遲敏感的自動補全或下一步行動預測。規模化之後，依靠更高吞吐量在標準硬體上帶來的成本與能源節省會迅速累積，依據 Inception Labs 的說法。

FAQ

Inception Labs 週四宣布了什麼？ Inception Labs 在週四推出 Mercury 2，稱其為世界上最快的推理語言模型。它每秒可生成約 1,000 tokens，並在 AIME 2026 基準測試中得分 90。

Mercury 2 與 Google 的 DiffusionGemma 在基準上如何比較？ Mercury 2 在 AIME 2026 得到 90 分，而 Google 的 DiffusionGemma 在同一測試中得分 69.1%。在 GPQA（一個博士級科學基準）上，Mercury 2 達到 77%，對比 DiffusionGemma 的 73.2%。

Augment Code 報告了哪些成本與延遲的改善？ 依據共同案例研究報告，Augment Code 將 Mercury 2 取代了 Claude Opus 4.7，放在其 context-compaction 子代理中，並看到延遲降低 82%、成本降低 90%，同時報告輸出品質相同。

View Source

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。