V4-Pro ทำอัตราคะแนนผ่านการเขียนโค้ด 67% ในการทดสอบการใช้งานจริงภายใน ใกล้เคียงประสิทธิภาพ Opus 4.5

ข้อความจาก Gate News วันที่ 24 เมษายน — V4 ได้เปิดเผยข้อมูลการใช้งานจริงภายใน (dogfooding) สำหรับโมเดล V4-Pro ต่อสาธารณะแล้ว บริษัทได้รวบรวมงานวิศวกรรมในโลกจริงประมาณ 200 งานจากวิศวกรมากกว่า 50 คน ครอบคลุมการพัฒนาฟีเจอร์ การแก้ไขบั๊ก การปรับโครงสร้างโค้ด (refactoring) และการวินิจฉัย (diagnostics) ข้ามสแตกเทคโนโลยี รวมถึง PyTorch, CUDA, Rust และ C++ หลังจากการคัดกรองอย่างเข้มงวด คงเหลือ 30 งานเพื่อการประเมินผลการทดสอบมาตรฐาน (benchmark)

V4-Pro-Max ทำอัตราคะแนนผ่านการเขียนโค้ด 67% ซึ่งเหนือกว่า Sonnet 4.5 ที่ 47% อย่างมีนัยสำคัญ และเข้าใกล้ Opus 4.5 ที่ 70% อย่างไรก็ตาม ยังตามหลัง Opus 4.5 Thinking (73%) และ Opus 4.6 Thinking (80%) ขณะเดียวกันก็เหนือกว่า Haiku 4.5 อย่างมากที่ 13%.

ในการสำรวจภายในกลุ่มตัวอย่าง 85 คน ผู้เข้าร่วมทั้งหมดรายงานว่าใช้ V4-Pro สำหรับการเขียนโค้ดแบบเชิงตัวแทน (agentic coding) ในเวิร์กโฟลว์ประจำวัน 52% เห็นด้วยให้ V4-Pro เป็นโมเดลหลักเริ่มต้นสำหรับการเขียนโค้ด 39% โน้มเอียงไปทางการอนุมัติ และน้อยกว่า 9% แสดงความไม่เห็นด้วย ปัญหาที่รายงานรวมถึงข้อผิดพลาดระดับต่ำ การตีความที่คลาดเคลื่อนต่อพรอมพ์ที่กำกวม และพฤติกรรมการคิดมากเกินไปเป็นครั้งคราว

news.article.disclaimer

btc.bar.articles

Meta Platforms วางแผนลดกำลังคน 10% ในวันที่ 20 พฤษภาคม กระทบตำแหน่งงานประมาณ 8,000 ตำแหน่ง

ข่าวประจำเกต เมสเสจ วันที่ 24 เมษายน — Meta Platforms วางแผนลดกำลังคนลงประมาณ 10% โดยกระทบตำแหน่งงานราว 8,000 ตำแหน่ง ในวันที่ 20 พฤษภาคม การเลิกจ้างมีเจตนาที่จะยกระดับประสิทธิภาพการดำเนินงาน ขณะเดียวกันเพิ่มการลงทุนด้านปัญญาประดิษฐ์ การปรับโครงสร้างที่วางแผนไว้สะท้อนให้เห็นถึง

GateNews15 นาที ที่แล้ว

รัฐบาลทรัมป์เปิดเผยแผนปราบปรามการนำ AI ไปใช้กลั่นผลประโยชน์ โดยกล่าวหาว่าเครือข่ายวิสาหกิจจีนลักลอบขโมยความสามารถของโมเดลอย่างเป็นระบบ

สำนักงานนโยบายเทคโนโลยีของทำเนียบขาว (OSTP) ผู้ช่วยประธานาธิบดีไมเคิล เจ. คราทเซียส (Michael J. Kratsios) ได้ออกแถลงการณ์อย่างเป็นทางการเมื่อวันที่ 23 เมษายน โดยระบุว่า รัฐบาลของทรัมป์มีข้อมูลที่แสดงว่านิติบุคคลต่างชาติ (โดยหลักแล้วอยู่ในจีน) กำลังจงใจโจมตีบริษัทปัญญาประดิษฐ์ขนาดใหญ่ของสหรัฐฯ ผ่านการสกัดความสามารถของโมเดล AI ของสหรัฐฯ อย่างเป็นระบบด้วย “บัญชีตัวแทนจำนวนหลายหมื่น” และระบบเทคนิคการหลุดจากการจำกัด (jailbreak) พร้อมทั้งประกาศมาตรการรับมือ 4 ประการไปพร้อมกัน

MarketWhisper37 นาที ที่แล้ว

DeepSeek เปิดตัว V4 เวอร์ชันตัวอย่างแบบโอเพนซอร์ส โดยได้คะแนนด้านเทคนิค 3206 ซึ่งเหนือกว่า GPT-5.4

DeepSeek 于 4 月 24 日正式推出 V4 预览版系列,以 MIT 许可协议开源,模型权重已同步上线 Hugging Face 及 ModelScope。根据 DeepSeek V4 技术报告,V4-Pro-Max(最高推理力度模式)在 Codeforces 基准取得 3206 分,超越 GPT-5.4。

MarketWhisper53 นาที ที่แล้ว

Cambricon เสร็จสิ้นการปรับใช้ Day 0 ของ DeepSeek-V4 สร้างความสำเร็จสำคัญสำหรับระบบนิเวศชิป AI ของจีน

ข้อความจาก Gate News วันที่ 24 เมษายน — Cambricon ประกาศในวันนี้ว่าได้เสร็จสิ้นการปรับใช้ Day 0 ของ DeepSeek-V4 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ล่าสุดจาก DeepSeek โดยใช้ระบบนิเวศซอฟต์แวร์ NeuWare ที่เป็นกรรมสิทธิ์ของบริษัทและเฟรมเวิร์ก vLLM โค้ดการปรับใช้นั้นถูกเผยแพร่โค้ดเป็นโอเพนซอร์สพร้อมกันด้วย ซึ่งถือเป็น

GateNews1 ชั่วโมง ที่แล้ว

Tencent เปิดซอร์ส Hy3 เวอร์ชันพรีวิว โดยการทดสอบเกณฑ์มาตรฐานของโค้ดทำได้ดีขึ้น 40% เมื่อเทียบกับรุ่นก่อนหน้า

Tencent เปิดแหล่งข้อมูลขนาดใหญ่สำหรับโมเดลภาษาขนาดใหญ่ Hy3 เวอร์ชันพรีวิวอย่างเป็นทางการบนแพลตฟอร์ม GitHub, Hugging Face และ ModelScope เมื่อวันที่ 23 เมษายน และยังให้บริการ API แบบชำระเงินพร้อมกันบนคลาวด์ของ Tencent (Tencent Cloud) อีกด้วย ตามรายงานของ Decrypt เมื่อวันที่ 24 เมษายน Hy3 เวอร์ชันพรีวิวเริ่มต้นการฝึกตั้งแต่ช่วงปลายเดือนมกราคม และจนถึงวันที่ประกาศยังใช้เวลาไม่ถึงสามเดือน

MarketWhisper1 ชั่วโมง ที่แล้ว

การลงทุนในพอร์ตโฟลิโอของ FTX มีมูลค่า 158 ล้านล้านวอน หากไม่ล้มละลาย

FTX ซึ่งเป็นแพลตฟอร์มแลกเปลี่ยนสกุลเงินดิจิทัลแบบรวมศูนย์ และยื่นขอความคุ้มครองการล้มละลายตามบทที่ 11 (Chapter 11) ในเดือนพฤศจิกายน 2022 เนื่องจากขาดสภาพคล่องและเงินทุนไหลออก จะต้องมีการถือครองการลงทุนมูลค่าประมาณ 158.796 ล้านล้านวอน หากไม่ล่มสลาย ตามการวิเคราะห์ที่อ้างโดย Park

CryptoFrontier1 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น