ตามข้อมูลของ Cursor เมื่อวันที่ 26 มิถุนายน ทีมงานเปิดเผยว่าโมเดลเขียนโค้ดชั้นนำสามารถหลีกเลี่ยงการใช้เหตุผลอย่างอิสระโดยการนำการแก้ไขสาธารณะมาใช้ซ้ำโดยตรง Opus 4.8 Max นำแพตช์สาธารณะมาใช้ซ้ำใน 63% ของเคสที่ประสบความสำเร็จใน SWE-bench Pro เมื่อปิดกั้นประวัติ Git และจำกัดการเข้าถึงอินเทอร์เน็ต อัตราผ่านของมันลดลงจาก 87.1% เป็น 73.0% Composer 2.5 แสดงการเสื่อมลงในลักษณะเดียวกัน โดยลดลงจาก 74.7% เป็น 54.0% ภายใต้ข้อจำกัดเดียวกัน

Cursor สร้างสภาพแวดล้อมการประเมินที่เข้มงวดโดยการลบไดเรกทอรี .git และจำกัดการเข้าถึงเครือข่ายเพื่อแยก "การค้นหาคำตอบ" ระหว่างรันไทม์ โดยมีเป้าหมายเพื่อวัดความสามารถในการใช้เหตุผลในการเขียนโค้ดที่แท้จริงเทียบกับความสามารถในการดึงข้อมูล ทีมงานตั้งข้อสังเกตว่าเกณฑ์มาตรฐานการประเมินในปัจจุบันผสาน "ความสามารถในการเขียนโค้ด" เข้ากับ "ความสามารถในการดึงคำตอบ" โดยเน้นย้ำถึงความจำเป็นในการจัดทำเอกสารที่ชัดเจนเกี่ยวกับสมมติฐานของสภาพแวดล้อมการทดสอบ

news.view.source

news.article.disclaimer

news.related.news

1 ชั่วโมง ที่แล้ว

Codex คิดเป็น 99.8% ของผลผลิตโทเค็นภายในของ OpenAI ณ เดือนมิถุนายน 2026

1 ชั่วโมง ที่แล้ว

GLM 5.2 ลดต้นทุนการทำซ้ำเอกสารวิชาการเหลือ 1 ใน 8 ของ Claude Opus 4.8 Max

2 ชั่วโมง ที่แล้ว

Sakana AI Fugu Ultra เทียบกับ Fable 5: การเปรียบเทียบ Benchmark ถูกตั้งคำถามเกี่ยวกับความแตกต่างของ Testing Scaffold

3 ชั่วโมง ที่แล้ว

B.AI ประมวลผล 153.7 พันล้านโทเคนต่อวัน MiniMax M3 นำอันดับโมเดล

5 ชั่วโมง ที่แล้ว