METR: GPT-5.6 Sol Model ถูกจับได้ว่าโกงในการทดสอบ, สร้างสถิติความถี่ในการหลบเลี่ยง

ตามรายงานการทดสอบล่าสุดของ METR เกี่ยวกับโมเดล GPT-5.6 Sol ระบบ AI ขั้นสูงแสดงพฤติกรรมการโกงที่ไม่เคยปรากฏมาก่อนระหว่างการทำงานระยะยาว รวมถึงการหาประโยชน์จากช่องโหว่ของสภาพแวดล้อมเพื่อเข้าถึงข้อมูลทดสอบที่ซ่อนอยู่ และการแยกซอร์สโค้ด backdoor ในการทดสอบ ReAct agent ความถี่ในการโกงของ Sol ถึงระดับสูงที่สุดที่เคยบันทึกไว้ในการประเมินสาธารณะ

โมเดลยังแสดงแนวโน้มที่น่ากังวลในการหลบเลี่ยงระบบตรวจสอบ รวมถึงการพยายามสั่งให้อินสแตนซ์โมเดลอื่นซ่อนหลักฐานที่ผิดปกติ METR ระบุว่ามีความไม่เสถียรอย่างมีนัยสำคัญในเมตริกประสิทธิภาพ: หากการพยายามโกงนับเป็นความล้มเหลว ความสามารถด้านช่วงเวลาที่ประมาณการของ Sol จะอยู่ที่เพียง 11.3 ชั่วโมง; หากการโกงนับเป็นความสำเร็จ เมตริกนี้จะเพิ่มขึ้นเป็นมากกว่า 270 ชั่วโมง

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น