DeepSeek V4 ทำคะแนนสมบูรณ์แบบบน Putnam-2025 เสมอกับ Axiom ในการให้เหตุผลทางคณิตศาสตร์แบบเป็นทางการ

ข้อความจาก Gate News วันที่ 24 เมษายน — DeepSeek V4 ได้เผยแพร่ผลการประเมินการให้เหตุผลทางคณิตศาสตร์อย่างเป็นทางการ โดยทำคะแนนสมบูรณ์แบบ 120/120 บน Putnam-2025 เสมอกับ Axiom สำหรับอันดับที่หนึ่ง

ในโหมดปฏิบัติการที่ใช้ LeanExplore และการสุ่มแบบมีข้อจำกัด V4-Flash-Max ได้คะแนน 81.00 ในเกณฑ์มาตรฐาน Putnam-200 Pass@8 ซึ่งเหนือกว่า Seed-2.0-Prover (35.50) อย่างมีนัยสำคัญ, Gemini 3 Pro (26.50), และ Seed-1.5-Prover (26.50) ผลลัพธ์ในโหมดแนวหน้าแสดงให้เห็นว่า V4 นำหน้า Seed-1.5-Prover (110/120) และ Aristotle (100/120).

V4 ใช้วิธีการให้เหตุผลแบบผสมผสานระหว่างแบบไม่เป็นทางการและแบบเป็นทางการ: การให้เหตุผลแบบไม่เป็นทางการสร้างวิธีแก้ปัญหาในรูปภาษาธรรมชาติที่เป็นผู้สมัคร, การตรวจสอบตนเองคัดกรองผลลัพธ์, และเอเจนต์แบบเป็นทางการทำการพิสูจน์อย่างเข้มงวดใน Lean ผลลัพธ์ในโหมดแนวหน้าใช้การขยายการคำนวณขนาดใหญ่ ในขณะที่คะแนนในโหมดปฏิบัติการสะท้อนขีดความสามารถในการใช้งานจริงมาตรฐานได้ดีกว่า

news.article.disclaimer

btc.bar.articles

Kaelan ผู้ร่วมก่อตั้ง NeoSoul: อุตสาหกรรม AI ควรเปิดพื้นที่ให้ของเล่นมีอยู่ นวัตกรรมมักเริ่มต้นจากผลิตภัณฑ์เชิงทดลอง

ข้อความจาก Gate News วันที่ 24 เมษายน — ในงานเสวนาที่ฮ่องกงเกี่ยวกับการเงินอัจฉริยะที่เข้ารหัส NeoSoul ร่วมก่อตั้งโดย Kaelan ได้แบ่งปันมุมมองเกี่ยวกับการประเมินโครงการ AI ในระยะแรกเริ่ม ซึ่งเป็นอุตสาหกรรม AI ที่พัฒนารวดเร็ว โดยนอกเหนือจากการประเมินผลิตภัณฑ์ปัจจุบันแล้ว ทีมงานต้องแสดงให้เห็นถึงความสามารถในการก้าวทันความสามารถของโมเดลพื้นฐานอย่างต่อเนื่อง เขากล่าวว่า ใน

GateNews12 นาที ที่แล้ว

Meta และ Amazon ตกลงดีลมูลค่าหลายพันล้านดอลลาร์เพื่อจัดหาชิป Graviton สำหรับการพัฒนา AI

ข้อความข่าว Gate News วันที่ 24 เมษายน — Meta Platforms และ Amazon Web Services (AWS) ได้บรรลุข้อตกลงมูลค่าหลายพันล้านดอลลาร์เพื่อสนับสนุนโครงการด้านปัญญาประดิษฐ์ของ Meta ในช่วงหลายปีข้างหน้า ตามรายงานของ Wall Street Journal ภายใต้ข้อตกลงดังกล่าว Meta จะใช้ชิปคอร์ AWS Graviton จำนวนหลายสิบล้านตัวเพื่อขับเคลื่อนเอเจนต์ด้าน AI และโครงการ AI อื่น ๆ ของตน

GateNews23 นาที ที่แล้ว

DeepSeek V4-Flash ขึ้นบน Ollama Cloud, โฮสต์ในสหรัฐอเมริกา: Claude Code, OpenClaw เชื่อมต่อด้วยปุ่มเดียว

Ollama Cloud ได้วางจำหน่าย DeepSeek V4-Flash แล้ว โดยการอนุมานทำบนโฮสต์ในสหรัฐฯ และมีชุดคำสั่งแบบกดครั้งเดียวให้เลือก 3 ชุด สำหรับการเชื่อมต่อ Claude Code, OpenClaw และ Hermes V4-Flash/V4-Pro ใช้สถาปัตยกรรมแบบ MoE รองรับบริบท 1M แบบเนทีฟ และลดต้นทุนด้วยการบีบอัดแบบ Token-wise + DSA sparse attention ในสถานการณ์ 1M การทำงานต่อ token FLOPs ลดลง 27% และ KV cache ลดลง 10% API มีความเข้ากันได้กับ OpenAI ChatCompletions และ Anthropic ทำให้ง่ายต่อการสลับระหว่างเวิร์กโฟลว์หลายแบบ ลดต้นทุนและความเสี่ยงด้านอธิปไตยของข้อมูล

ChainNewsAbmedia1 ชั่วโมง ที่แล้ว

โครงสร้างพื้นฐาน Web3 AI AIW3 ระดมทุน Seed ได้ $2M ล้าน นำโดย Buffalo Capital

ข่าวจาก Gate วันที่ 24 เมษายน — แพลตฟอร์มโครงสร้างพื้นฐาน Web3 AI AIW3 ประกาศเสร็จสิ้นการระดมทุน Seed รอบแรกจำนวน $2 ล้านดอลลาร์แล้ว รอบนี้นำโดย Buffalo Capital โดย GalaXin Capital และ Three-stones Ventures เข้าร่วมในฐานะผู้ร่วมลงทุน AIW3 กำลังเปลี่ยนผ่านไปสู่กรอบแนวคิดการดำเนินการแบบ on-chain ของ Agent-as-a-Service

GateNews2 ชั่วโมง ที่แล้ว

Cohere เข้าซื้อกิจการบริษัท AI ของเยอรมนี Aleph Alpha พร้อมเงินลงทุน $600M เพื่อขยายการเติบโตในยุโรป

ข้อความข่าว Gate ประจำวันที่ 24 เมษายน — บริษัท AI ของแคนาดา Cohere ประกาศแผนที่จะเข้าซื้อกิจการ Aleph Alpha ซึ่งเป็นบริษัท AI ในเยอรมนี เพื่อเสริมความแข็งแกร่งในยุโรป Schwarz Group ซึ่งเป็นผู้สนับสนุนของ Aleph Alpha วางแผนจะลงทุน $600 ล้านดอลลาร์ในการระดมทุนรอบ Series E ของ Cohere คาดว่ารอบการระดมทุนจะปิดในปี 202

GateNews2 ชั่วโมง ที่แล้ว

Xpeng, Xiaomi Lead In-Car AI Push at Beijing Auto Show

Gate News message, April 24 — Chinese automakers showcased advanced in-car AI systems at the Beijing Auto Show on April 24, as the country accelerates its AI Plus strategy and seeks greater independence from foreign semiconductors. Xpeng demonstrated voice-controlled parking that allows drivers to

GateNews3 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น