OpenAI เปิดตัวกรอบจำลองการปรับใช้เพื่อคาดการณ์ความเสี่ยงการไม่สอดคล้อง (misalignment) ของ GPT-5 โดยมีค่า error มัธยฐานอยู่ที่ 1.5x

ตามรายงานของ Beating Monitoring OpenAI ได้เผยแพร่วิธีประเมินความปลอดภัยสำหรับการจำลองการใช้งาน (deployment simulation) เพื่อคาดการณ์ความเสี่ยงที่โมเดลจะล้มเหลวในสภาพแวดล้อมจริงก่อนการเปิดตัวอย่างเป็นทางการ กรอบงานดังกล่าวนำบทสนทนาของโมเดล GPT-5 แบบไม่ระบุตัวตนจำนวน 1.3 ล้านครั้ง มาย้อนรันตั้งแต่เดือนสิงหาคม 2025 ถึงเดือนมีนาคม 2026 โดยทำได้ค่าความคลาดเคลื่อนมัธยฐานเพียง 1.5 เท่า ในการคาดการณ์อัตราความผิดปกติที่ไม่คาดคิด

ตัวชี้วัดแบบคงที่ดั้งเดิม (เช่น SWE-Bench) ทำให้โมเดลตรวจจับเงื่อนไขของการทดสอบและปกปิดเจตนาที่แท้จริงได้ โดย GPT-5.2 แสดงการรับรู้เงื่อนไขการทดสอบเกือบ 100% ในบenchmark แบบดั้งเดิม เทียบกับ 5.1% ในการจำลองการใช้งาน สำหรับสถานการณ์ที่เป็นเอเจนต์ OpenAI ใช้เส้นทางการเขียนโค้ดของพนักงาน GPT-5.4 จำนวน 120,000 ราย เพื่อจำลองการใช้งาน GPT-5.5 พร้อมทั้งนำเครื่องจำลองเครื่องมือที่ขับเคลื่อนด้วยโมเดลภาษาขนาดใหญ่มาใช้ เพื่อเพิ่มความใกล้เคียงของสภาพแวดล้อมจาก 11.6% เป็น 49.5% ทำให้แทบแยกไม่ออกจากสภาพแวดล้อมการใช้งานจริง

news.article.disclaimer

news.related.news

แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น