DeepSeek V4 在 Putnam-2025 取得滿分,並列與 Axiom 第一名(正式數學推理)

Gate 新聞訊息,4月24日——DeepSeek V4 已發布來自正式數學推理評估的結果,在 Putnam-2025 中取得滿分 120/120,與 Axiom 並列第一名。

在使用 LeanExplore 與受約束取樣的實務模式下,V4-Flash-Max 在 Putnam-200 Pass@8 基準中得分 81.00,顯著優於 Seed-2.0-Prover (35.50)、Gemini 3 Pro (26.50) 以及 Seed-1.5-Prover (26.50)。前沿模式的結果顯示,V4 領先於 Seed-1.5-Prover (110/120) 與 Aristotle (100/120)。

V4 採用混合型「正式—非正式推理」方法:非正式推理產生候選自然語言解答,自我驗證會篩選結果,而正式代理在 Lean 中完成嚴格證明。前沿模式結果使用了大規模計算規模化,而實務模式分數更能反映標準部署能力。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

NeoSoul 联合创始人 Kaelan:AI 行业应当允许“玩具”存在,创新往往从实验性产品开始

Gate News 消息,4 月 24 日——在近期香港一场关于智能加密金融的论坛上,NeoSoul 联合创始人 Kaelan 分享了其对如何在早期、快速演进的 AI 行业中评估 AI 项目的见解。除了评估现有产品之外,团队还必须展现出能够跟上底层模型能力变化的能力,他表示。

GateNews12分鐘前

Meta 與 Amazon 就數十億美元協議達成共識:供應 Graviton 晶片以推動 AI 開發

Gate News 訊息,4 月 24 日——根據《華爾街日報》報導,Meta 平台與亞馬遜網路服務 (AWS) 已達成一項價值數十億美元的協議,將在未來幾年支持 Meta 的人工智慧(AI)計畫。依據該協議,Meta 將使用數千萬顆 AWS Graviton 晶片核心來為其 AI 代理與其他 AI 專案提供動力。

GateNews23分鐘前

DeepSeek V4-Flash 登上 Ollama Cloud、美國主機:Claude Code、OpenClaw 一鍵串接

Ollama Cloud 已上架 DeepSeek V4-Flash,推論在美國主機,提供三組一鍵指令接入 Claude Code、OpenClaw、Hermes。V4-Flash/V4-Pro 採 MoE 架構、原生支援1M脈絡,並以 Token-wise 壓縮+DSA 稀疏注意力降低成本,1M情境下單 token FLOPs 降27%、KV 快取降10%。API 相容 OpenAI ChatCompletions 與 Anthropic,方便多工作流切換,降低成本與資料主權風險。

鏈新聞abmedia1小時前

Web3 AI 基礎設施 AIW3 完成由 Buffalo Capital 領投的 $2M 種子輪融資

Gate 新聞訊息,4 月 24 日——Web3 AI 基礎設施平台 AIW3 宣布完成一筆 $2 百萬種子輪融資。該輪由 Buffalo Capital 領投,並由 GalaXin Capital 與 Three-stones Ventures 作為共同投資方參與。 AIW3 正在轉向「代理即服務」(Agent-as-a-Service)

GateNews2小時前

Cohere 收購德國 AI 公司 Aleph Alpha,為歐洲擴張獲得 $600M 投資

Gate News 訊息,4 月 24 日——加拿大 AI 公司 Cohere 宣布計劃收購德國 AI 公司 Aleph Alpha,以強化其在歐洲的佈局。Aleph Alpha 的支持者 Schwarz Group 計劃在 Cohere 的 E 輪融資中投資 $600 百萬美元。 預計該輪融資將在 202

GateNews2小時前

小鵬、Xiaomi 引領車載AI浪潮亮相北京車展

Gate News 訊息,4月24日——隨著中國加速其「AI Plus」策略,並努力在外國半導體方面取得更大自主性,中國汽車製造商在4月24日的北京車展上展示了先進的車載AI系統。 小鵬展示了可進行語音控制停車的功能,讓駕駛能夠「發出語音指令,而不是手動選擇停車位置。」

GateNews3小時前
留言
0/400
暫無留言