Google DeepMind AI 合作數學家在 FrontierMath 第 4 階段達成 47.9%,超越 GPT-5.5 Pro,解決 3 個先前無法解決的問題

Google DeepMind 發布 AI 合數學家(AI co-mathematician),一款多代理數學研究助理,在 FrontierMath 第 4 層級基準測試中達到 47.9% 的準確率,超越 GPT-5.5 Pro 先前在 5 月 9 日創下的 39.6% 記錄。該系統解出 48 題中的 23 題,包括 3 題是所有先前模型都無法解答的。系統基於 Gemini 3.1 Pro,採用分層架構:由專案協調員代理(project coordinator agent)分派任務給負責文獻檢索、編碼與推理的子代理(sub-agents),並由多個審查員代理(reviewer agents)在提交前驗證證明。

Epoch AI 進行了盲測,使 DeepMind 團隊無法看到題目;每道題目允許進行 48 小時的運算。在真實世界的應用中,數學家 Marc Lackenby 使用該系統解決了來自 Kourovka Notebook 的一個未解推測,展現其實際研究價值。目前該系統正以內測形式提供給少數數學家使用。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
回覆
0/400
暫無回覆