DeepSeek V4 Đạt Điểm Hoàn Hảo Trên Putnam-2025, Hòa Với Axiom Trong Suy Luận Toán Học Chính Thức

Tin tức từ Gate, ngày 24 tháng 4 — DeepSeek V4 đã công bố kết quả từ các bài đánh giá suy luận toán học chính thức, đạt điểm tuyệt đối 120/120 trên Putnam-2025, hòa với Axiom ở vị trí số 1.

Trong chế độ thực dụng sử dụng LeanExplore và lấy mẫu bị ràng buộc, V4-Flash-Max đạt 81.00 trên chuẩn điểm Putnam-200 Pass@8, vượt trội đáng kể so với Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) và Seed-1.5-Prover (26.50). Kết quả ở chế độ biên cho thấy V4 đứng trước Seed-1.5-Prover (110/120) và Aristotle (100/120).

V4 sử dụng một cách tiếp cận suy luận lai chính thức-vô chính thức: suy luận vô chính thức tạo ra các giải pháp ứng viên bằng ngôn ngữ tự nhiên, tự kiểm chứng lọc các kết quả, và tác nhân chính thức hoàn thiện các phép chứng chặt chẽ trong Lean. Kết quả ở chế độ biên sử dụng khả năng mở rộng tính toán quy mô lớn, trong khi điểm số ở chế độ thực dụng phản ánh tốt hơn năng lực triển khai tiêu chuẩn.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận