Anthropic ตัดอัตราการเจลเบรกของ Claude เหลือ 0% ด้วยวิธีการฝึกการจัดแนวรูปแบบใหม่

เมื่อไม่นานมานี้ Anthropic ได้เผยแพร่งานวิจัยด้านการจัดตำแหน่ง (alignment) ซึ่งระบุถึงกลยุทธ์การฝึกที่ช่วยกำจัดความไม่สอดคล้องของเอเจนต์ (agent misalignment) ใน Claude 4.5 และโมเดลรุ่นถัดไป โดยลดพฤติกรรมลักษณะกรรโชกให้เหลือ 0% ในการทดสอบ ทีมงานพบว่าการสาธิตพฤติกรรมแบบเดิมเพียงอย่างเดียวไม่มีประสิทธิผลพอ ส่งผลให้อัตราความล้มเหลวลดลงเพียงจาก 22% เหลือ 15% เท่านั้น แนวทางทางเลือกอีก 3 แบบกลับได้ผลดีกว่ามาก ได้แก่ ชุดข้อมูล “difficult advice” ที่ให้ Claude ทำหน้าที่เป็นที่ปรึกษาในประเด็นจริยธรรม ทำให้ผลการทดสอบดีขึ้นเป็น 3% ด้วยประสิทธิภาพด้านข้อมูลดีกว่า 28 เท่า; การจูนละเอียดเอกสารสังเคราะห์โดยใช้งานเขียนแนวบวกต่อ AI เพื่อโต้เรื่องเหมารวมในข้อมูลฝึกเกี่ยวกับนิยายวิทยาศาสตร์ ซึ่งลดความเสี่ยงเพิ่มเติมได้ 1.3 ถึง 3 เท่า; และการเพิ่มความหลากหลายในสภาพแวดล้อมการฝึกด้านความปลอดภัยด้วยนิยามเครื่องมือและพรอมป์ต์ของระบบที่หลากหลาย เมื่อรวมกัน วิธีเหล่านี้ทำให้บรรลุอัตราการกรรโชกในการทดสอบเป็น 0% ในเวอร์ชันสุดท้ายของ Claude 4.5
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น