Meituan Open-Sources 560B Parameter Theorem Proving Model, Achieving 97.1% Pass Rate on 72 Inferences Refreshing Open-Source SOTA

Gate News 消息,3月21日,美團LongCat團隊開源LongCat-Flash-Prover,這是一個擁有5600億參數的MoE模型,專注於形式化定理證明語言Lean4的數學推理任務。模型權重以MIT許可證發布,已上線GitHub、Hugging Face和ModelScope。

該模型將形式化推理拆解為三項獨立能力:自動形式化(將自然語言數學問題轉化為Lean4形式語句)、草圖生成(產出引理風格的證明框架)和完整證明生成。三項能力均通過Agent工具集成推理(TIR)與Lean4編譯器實時交互驗證。

訓練方面,團隊提出Hybrid-Experts Iteration Framework生成冷啟動數據,並在強化學習階段引入HisPO算法穩定MoE模型的長程任務訓練,同時加入定理一致性和合法性檢測機制防止reward hacking。

基準測試顯示,LongCat-Flash-Prover在開源權重模型中刷新了自動形式化和定理證明兩項SOTA。在MiniF2F-Test上僅用72次推理即達97.1%通過率,ProverBench和PutnamBench分別達到70.8%和41.5%,每題推理次數不超過220次。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆