Inception Labs 於週四推出 Mercury 2,並將其定位為世界上最快的推理語言模型,速度約為每秒 1,000 tokens。該模型在 AIME 2026 基準測試中得分 90,超越 Google 近期發布的 DiffusionGemma;後者在同一測試中達到 69.1%,且產生速度相近。兩個模型都採用基於擴散(diffusion)的平行生成,而非依序處理 token,反映整個產業在架構上轉向更快速的推論方法。
Mercury 2 在數學基準上超越 DiffusionGemma
根據 Inception Labs 的公告,Mercury 2 每秒可生成約 1,000 tokens(AI 模型讀取與輸出的文字片段),而 Anthropic 的 Claude Haiku 4.5 推理則約為每秒 89 tokens,OpenAI 的 GPT-5 Mini 為 71。AIME 2026 由真實的美國全國高中數學競賽(American Invitational Mathematics Examination)題目構建,得分方式為正確解出的百分比;Mercury 2 得到 90%。Google 將 DiffusionGemma 也測試在相同題組上,得分為 69.1%;而標準、非擴散版本的 Gemma 4 在同一測試中得分為 88.3%。
在 GPQA(高階科學基準,等同博士級)上,兩個模型幾乎打平:Mercury 2 為 77%,而 DiffusionGemma 為 73.2%。Google 的開發者指南建議在需要最大品質的應用中使用標準 Gemma 4,承認 DiffusionGemma 在各方面都落後。DiffusionGemma 在 Hugging Face 上提供免費且開放權重。Mercury 2 是付費、封閉權重的 API 模型。
擴散模型取代依序 token 生成
兩個模型都不再採用打字機式的寫作方式。一般聊天機器人會寫下一個單字,檢查自己剛寫了什麼,接著再寫下一個,直到答案完成。擴散模型則是先用隨機的佔位 token 填滿一整段文字,然後在少量幾次平行傳遞中逐步擦除雜訊——這和影像生成器(如 Stable Diffusion)把靜態畫面轉成照片的同一招——直到整段內容一次性鎖定成完成的回應。
Augment Code:生產環境延遲降低 82%
Augment Code 是一家 AI 程式碼代理(coding-agent)公司;根據共同案例研究報告,它將 Mercury 2 取代了 Claude Opus 4.7,放在其 context-compaction 子代理中,並看到延遲降低 82%、成本降低 90%,同時報告輸出品質相同。
Inception Labs 拿到 5,000 萬美元融資
Inception Labs 募得 5,000 萬美元融資,由 Nvidia 的投資部門以及個人投資人 Andrew Ng 與 Andrej Karpathy 支持。該新創公司建立在其創辦人 Stefano Ermon 的研究之上;Ermon 是斯坦福教授,曾共同撰寫一些支撐今日影像生成器的基於分數(score-based)擴散技術。
平行生成讓多代理系統架構成形
複雜的 AI 系統像是編曲樂團:有負責深入推理的、負責快速摘要的多個成員、負責路由、工具查找、輸出檢查的模組。依序模型讓這些效用呼叫變得昂貴且緩慢。平行擴散模型則讓它們變得足夠便宜與快速,能夠更大幅度地被使用。就目前而言,Mercury 2 是 API/雲端;完整的生態系統——本地執行環境、代理框架——仍在追趕中。
擴散方法特別適合對速度敏感的工作流程
適用情境包括即時程式設計(模型能跟上編輯)、多代理程式碼或支援系統(會發生大量快速子呼叫)、不讓人覺得延遲的語音介面,以及任何對延遲敏感的自動補全或下一步行動預測。規模化之後,依靠更高吞吐量在標準硬體上帶來的成本與能源節省會迅速累積,依據 Inception Labs 的說法。
FAQ
Inception Labs 週四宣布了什麼?
Inception Labs 在週四推出 Mercury 2,稱其為世界上最快的推理語言模型。它每秒可生成約 1,000 tokens,並在 AIME 2026 基準測試中得分 90。
Mercury 2 與 Google 的 DiffusionGemma 在基準上如何比較?
Mercury 2 在 AIME 2026 得到 90 分,而 Google 的 DiffusionGemma 在同一測試中得分 69.1%。在 GPQA(一個博士級科學基準)上,Mercury 2 達到 77%,對比 DiffusionGemma 的 73.2%。
Augment Code 報告了哪些成本與延遲的改善?
依據共同案例研究報告,Augment Code 將 Mercury 2 取代了 Claude Opus 4.7,放在其 context-compaction 子代理中,並看到延遲降低 82%、成本降低 90%,同時報告輸出品質相同。