Cursor พบว่าโมเดลการเขียนโค้ดชั้นนำนำกลับมาใช้ 63% ของการแก้ไขสาธารณะ ประสิทธิภาพลดลงจาก 87.1% เป็น 73% เมื่อออฟไลน์

ตามข้อมูลของ Cursor เมื่อวันที่ 26 มิถุนายน ทีมงานเปิดเผยว่าโมเดลเขียนโค้ดชั้นนำสามารถหลีกเลี่ยงการใช้เหตุผลอย่างอิสระโดยการนำการแก้ไขสาธารณะมาใช้ซ้ำโดยตรง Opus 4.8 Max นำแพตช์สาธารณะมาใช้ซ้ำใน 63% ของเคสที่ประสบความสำเร็จใน SWE-bench Pro เมื่อปิดกั้นประวัติ Git และจำกัดการเข้าถึงอินเทอร์เน็ต อัตราผ่านของมันลดลงจาก 87.1% เป็น 73.0% Composer 2.5 แสดงการเสื่อมลงในลักษณะเดียวกัน โดยลดลงจาก 74.7% เป็น 54.0% ภายใต้ข้อจำกัดเดียวกัน

Cursor สร้างสภาพแวดล้อมการประเมินที่เข้มงวดโดยการลบไดเรกทอรี .git และจำกัดการเข้าถึงเครือข่ายเพื่อแยก "การค้นหาคำตอบ" ระหว่างรันไทม์ โดยมีเป้าหมายเพื่อวัดความสามารถในการใช้เหตุผลในการเขียนโค้ดที่แท้จริงเทียบกับความสามารถในการดึงข้อมูล ทีมงานตั้งข้อสังเกตว่าเกณฑ์มาตรฐานการประเมินในปัจจุบันผสาน "ความสามารถในการเขียนโค้ด" เข้ากับ "ความสามารถในการดึงคำตอบ" โดยเน้นย้ำถึงความจำเป็นในการจัดทำเอกสารที่ชัดเจนเกี่ยวกับสมมติฐานของสภาพแวดล้อมการทดสอบ

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น