GPT-5.5 กลับมาล้ำหน้าในการเขียนโค้ด แต่ OpenAI เปลี่ยนเกณฑ์มาตรฐานหลังแพ้ Opus 4.7

ข่าวประจำเกต 27 เมษายน — SemiAnalysis บริษัทวิเคราะห์เซมิคอนดักเตอร์และ AI ได้เผยแพร่มาตรฐานเปรียบเทียบเชิงเปรียบเทียบของผู้ช่วยการเขียนโค้ด รวมถึง GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 ผลค้นหาที่สำคัญ: GPT-5.5 แสดงถึงการกลับสู่ขอบล้ำในการพัฒนาโมเดลการเขียนโค้ดของ OpenAI เป็นครั้งแรกในรอบหกเดือน โดยวิศวกรของ SemiAnalysis ตอนนี้สลับไปมาระหว่าง Codex และ Claude Code หลังจากก่อนหน้านี้พึ่งพา Claude เกือบทั้งหมด GPT-5.5 อ้างอิงจากแนวทางการพรีเทรนแบบใหม่ที่มีชื่อรหัสว่า “Spud” และถือเป็นการขยายขนาดการพรีเทรนครั้งแรกของ OpenAI นับตั้งแต่ GPT-4.5.

ในการทดสอบเชิงปฏิบัติที่ชัดเจน ได้แยกบทบาทออกมาอย่างชัดเจน Claude จัดการการวางแผนโครงการใหม่และการตั้งค่าเริ่มต้น ในขณะที่ Codex โดดเด่นสำหรับการแก้บั๊กที่ต้องใช้การให้เหตุผลหนักๆ Codex แสดงความเข้าใจโครงสร้างข้อมูลและการให้เหตุผลเชิงตรรกะที่แข็งแกร่งกว่า แต่กลับมีปัญหาในการคาดเดาความตั้งใจของผู้ใช้ที่ไม่ชัดเจน ในงานที่คล้ายกันบนแดชบอร์ดเดียว Claude คัดลอกเค้าโครงหน้าจากตัวอย่างได้โดยอัตโนมัติแต่ได้สร้างข้อมูลจำนวนมากขึ้นมา ในขณะที่ Codex ข้ามเรื่องเค้าโครงแต่ให้ข้อมูลที่แม่นยำกว่ามาก

การวิเคราะห์เผยรายละเอียดเกี่ยวกับการปรับแต่งเกณฑ์มาตรฐาน: โพสต์บล็อกของ OpenAI ในเดือนกุมภาพันธ์ได้เรียกร้องให้วงการนำ SWE-bench Pro มาเป็นมาตรฐานใหม่สำหรับการประเมินเกณฑ์การเขียนโค้ด อย่างไรก็ตาม การประกาศของ GPT-5.5 ได้เปลี่ยนไปใช้เกณฑ์มาตรฐานใหม่ที่ชื่อ “Expert-SWE” เหตุผล—ซ่อนอยู่ในส่วนปลีกย่อย—คือ GPT-5.5 ถูก Opus 4.7 แซงบน SWE-bench Pro และทำผลงานได้ต่ำกว่ามากเมื่อเทียบกับ Mythos ที่ยังไม่เผยแพร่ของ Anthropic (77.8%).

สำหรับ Opus 4.7 Anthropic เผยแพร่การวิเคราะห์สรุปหลังเหตุการณ์ (postmortem) หนึ่งสัปดาห์หลังการเปิดตัว โดยยอมรับบั๊กสามจุดใน Claude Code ที่ยังคงอยู่ต่อเนื่องเป็นเวลาหลายสัปดาห์ตั้งแต่เดือนมีนาคมถึงเมษายน ส่งผลกระทบต่อผู้ใช้งานเกือบทั้งหมด วิศวกรหลายคนเคยรายงานว่าประสิทธิภาพลดลงในเวอร์ชัน 4.6 มาก่อน แต่ถูกมองว่าเป็นข้อสังเกตเชิงอัตวิสัย นอกจากนี้ โทเคไนเซอร์ใหม่ของ Opus 4.7 เพิ่มการใช้งานโทเคนได้สูงถึง 35% ซึ่ง Anthropic ยอมรับอย่างตรงไปตรงมา—ซึ่งเท่ากับเป็นการขึ้นราคาที่ซ่อนอยู่โดยปริยาย

DeepSeek V4 ถูกประเมินว่า “ตามทันความก้าวหน้าในระดับแนวหน้าแต่ไม่ได้เป็นผู้นำ” โดยวางตำแหน่งตัวเองเป็นทางเลือกที่มีต้นทุนต่ำที่สุดในบรรดาโมเดลที่ปิดซอร์ส การวิเคราะห์ยังระบุว่า “Claude ยังคงทำผลงานได้ดีกว่า DeepSeek V4 Pro ในงานเขียนภาษาจีนที่มีความยากสูง” โดยแสดงความคิดเห็นว่า “Claude ชนะโมเดลภาษาจีนในภาษาเดียวกับที่มันใช้”

บทความนำเสนอแนวคิดสำคัญว่า ควรประเมินราคาของโมเดลด้วย “ต้นทุนต่อหนึ่งงาน” แทนที่จะเป็น “ต้นทุนต่อหนึ่งโทเคน” ราคาของ GPT-5.5 เป็นสองเท่าของ GPT-5.4 (input $5, output $30 per million tokens) แต่ทำงานเดียวกันได้โดยใช้โทเคนน้อยกว่า ดังนั้นต้นทุนที่แท้จริงจึงไม่ได้จำเป็นต้องสูงขึ้น ข้อมูลเบื้องต้นจาก SemiAnalysis แสดงว่าอัตราส่วนอินพุตต่อเอาต์พุตของ Codex อยู่ที่ 80:1 ต่ำกว่าของ Claude Code ที่ 100:1.

news.article.disclaimer

btc.bar.articles

Sierra ระดมทุน 9.5 ล้านดอลลาร์ มูลค่า 15.8 พันล้านดอลลาร์: Bret Taylor นำ OpenAI เข้าร่วมในฐานะประธานเพื่อแย่งชิงตำแหน่งผู้นำ AI บริการลูกค้า

Sierra ก่อตั้งร่วมโดย Bret Taylor ประกาศปิดการระดมทุน Series E มูลค่า 950 ล้านดอลลาร์ สำเร็จ โดยมีมูลค่าบริษัท 15,800 ล้านดอลลาร์ นักลงทุนคือ Tiger Global และ GV ทั้งนี้ใช้เวลา 8 ไตรมาสในการทำรายได้ประจำ ARR ได้ 150 ล้านดอลลาร์ และอัตราการเข้าถึงกลุ่ม Fortune 50 มากกว่า 40% โดยแพลตฟอร์มดังกล่าววางตำแหน่งเป็นแพลตฟอร์มบริการลูกค้าแบบเฉพาะทางที่ขับเคลื่อนด้วย AI agent เป็นแกนหลัก พร้อมเวิร์กโฟลว์พร้อมใช้งานสำหรับการทำงาน Taylor ยังดำรงตำแหน่งประธานบอร์ดของ OpenAI โดยประเด็นที่ถูกจับตาคือการกำกับดูแลและการเปิดเผยผลประโยชน์

ChainNewsAbmedia40 นาที ที่แล้ว

OpenAI ปรับโครงสร้าง WebRTC สำหรับการซ้อนเสียง: มีผู้ใช้งานรายสัปดาห์ 900M และใช้ Relay ที่เขียนด้วย Go เป็นแกนหลัก

OpenAI เปิดตัวรีเลย์แบบบางที่เขียนด้วย Go และสถาปัตยกรรม transceiver แบบรวมศูนย์ โดยปรับโครงสร้างชั้นสื่อของ WebRTC เพื่อรองรับบริการเสียงสำหรับผู้ใช้งานที่ใช้งานอยู่ประจำสัปดาห์ 900 ล้านคน การเชื่อมต่อที่ต้องอาศัยสถานะจำนวนมากจะรวมศูนย์อยู่ที่ transceiver ขณะที่ relay ทำหน้าที่เป็นดาต้าเพลนแบบไม่เก็บสถานะ ช่วยแก้คอขวดต่างๆ เช่น ปัญหา “หนึ่งพอร์ตหนึ่ง session”, การเป็นเจ้าของ ICE/DTLS และความหน่วงจากฮอปแรกต่ำ ทำให้ขยายระบบได้ในแนวนอน ต่อจากนี้จะจับตาดูว่าจะมีการเปิดซอร์สหรือไม่ ขนาดของ Realtime API และโครงสร้างราคา รวมถึงการเคลื่อนไหวของคู่แข่ง

ChainNewsAbmedia42 นาที ที่แล้ว

Gemini API เพิ่ม Webhooks: Google แก้ปัญหาการโพลแบบงานระยะยาวที่ต้องรอนาน, Batch/ Voeo สามารถส่งแบบเรียลไทม์ได้ทันที

Google Gemini API เปิดตัว Webhooks ในวันที่ 4 พฤษภาคม ทำให้เมื่อ “งานระยะยาว” เสร็จสิ้น ระบบจะส่งผลลัพธ์ไปยัง callback URL โดยอัตโนมัติ แทนการทำ polling ช่วยลดการใช้ทรัพยากรและความล่าช้า พร้อมทำให้โค้ดใช้งานง่ายขึ้น รองรับ Batch API, Veo2 และการประมวลผลแบบ long context โดยเฉพาะเหมาะกับงานประเภท serverless เมื่อเทียบกับ OpenAI ที่นิยมใช้ SSE และ Anthropic ที่ยังคงใช้ polling อยู่ Google เน้นการพัฒนาโครงสร้างพื้นฐานสำหรับนักพัฒนา ในอนาคตยังต้องจับตากลไกด้านความปลอดภัยและการขยายความสามารถของโมเดล สำหรับนักพัฒนาในไต้หวัน การผสานใช้งานทันทีสามารถลด quota และภาระระบบได้อย่างมีนัยสำคัญ

ChainNewsAbmedia44 นาที ที่แล้ว

Krutrim เปลี่ยนสู่บริการคลาวด์ด้าน AI ในวันที่ 5 พฤษภาคม เผยแพร่กำไรครั้งแรก ขณะที่รายได้ปีงบประมาณ 2026 แตะ 31.6 ล้านดอลลาร์

ตามรายงานของ Press Trust of India บริษัทด้าน AI ของอินเดียอย่าง Krutrim ได้ปรับตำแหน่งตัวเองเป็นผู้ให้บริการคลาวด์ AI ภายในประเทศเมื่อวันที่ 5 พฤษภาคม โดยหยุดความพยายามในการออกแบบชิป และหันทั้งเงินทุนและบุคลากรไปที่โครงสร้างพื้นฐานด้านคลาวด์ บริษัทระบุรายได้ในปีงบประมาณ FY26 อยู่ที่ประมาณ 3 พันล้านรูปี (US$31.6 m

GateNews1 ชั่วโมง ที่แล้ว

Haun Ventures ปิดกองทุนมูลค่า 1 พันล้านดอลลาร์ เมื่อวันที่ 5 พฤษภาคม โดยตั้งเป้าธุรกิจสตาร์ทอัพด้านคริปโตและ AI

ตาม Cointelegraph Haun Ventures ระดมทุนมูลค่า 1 พันล้านดอลลาร์สำหรับกองทุนใหม่เสร็จสิ้นเมื่อวันที่ 5 พฤษภาคม โดยเงินทุนจะถูกจัดสรรเท่าๆ กันระหว่างการลงทุนระยะเริ่มต้นและระยะปลาย กองทุนนี้จะมุ่งเน้นสตาร์ทอัปด้านคริปโท ปัญญาประดิษฐ์ และภาคส่วนอื่นๆ

GateNews2 ชั่วโมง ที่แล้ว

การลงทุนของ Anthropic และ OpenAI ทะลุ 1.1 พันล้านดอลลาร์สหรัฐในเทรดคริปโทแบบค้าปลีกตั้งแต่เริ่มปี 2026

ตามรายงานของ Bloomberg นักลงทุนรายย่อยได้เทเงินประมาณ 1.13 พันล้านดอลลาร์สหรัฐเพื่อทำการเทรดแบบใช้เลเวอเรจในอนุพันธ์ของบริษัท AI เอกชนตั้งแต่ต้นปี 2026 แพลตฟอร์มคริปโตรายย่อย Ventuals และ PreStocks เปิดให้เทรดตลอด 24 ชั่วโมงบนบริษัทต่างๆ รวมถึง Anthropic, OpenAI และ SpaceX โดยไม่ให้สิทธิ์ทางตรงแก่

GateNews2 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น