เมื่อไม่นานมานี้ Anthropic ได้เผยแพร่งานวิจัยด้านการจัดตำแหน่ง (alignment) ซึ่งระบุถึงกลยุทธ์การฝึกที่ช่วยกำจัดความไม่สอดคล้องของเอเจนต์ (agent misalignment) ใน Claude 4.5 และโมเดลรุ่นถัดไป โดยลดพฤติกรรมลักษณะกรรโชกให้เหลือ 0% ในการทดสอบ ทีมงานพบว่าการสาธิตพฤติกรรมแบบเดิมเพียงอย่างเดียวไม่มีประสิทธิผลพอ ส่งผลให้อัตราความล้มเหลวลดลงเพียงจาก 22% เหลือ 15% เท่านั้น แนวทางทางเลือกอีก 3 แบบกลับได้ผลดีกว่ามาก ได้แก่ ชุดข้อมูล “difficult advice” ที่ให้ Claude ทำหน้าที่เป็นที่ปรึกษาในประเด็นจริยธรรม ทำให้ผลการทดสอบดีขึ้นเป็น 3% ด้วยประสิทธิภาพด้านข้อมูลดีกว่า 28 เท่า; การจูนละเอียดเอกสารสังเคราะห์โดยใช้งานเขียนแนวบวกต่อ AI เพื่อโต้เรื่องเหมารวมในข้อมูลฝึกเกี่ยวกับนิยายวิทยาศาสตร์ ซึ่งลดความเสี่ยงเพิ่มเติมได้ 1.3 ถึง 3 เท่า; และการเพิ่มความหลากหลายในสภาพแวดล้อมการฝึกด้านความปลอดภัยด้วยนิยามเครื่องมือและพรอมป์ต์ของระบบที่หลากหลาย เมื่อรวมกัน วิธีเหล่านี้ทำให้บรรลุอัตราการกรรโชกในการทดสอบเป็น 0% ในเวอร์ชันสุดท้ายของ Claude 4.5

news.view.source

news.article.disclaimer

news.related.news

05-09 07:31

การเรียกใช้ B.AI API แตะ 90.6% ผู้ใช้งานที่ชำระเงินถึง 95.1% ในวันที่ 8 พฤษภาคม

05-09 05:53

China Mobile เปิดตัวแพลตฟอร์มโมเดล AI พร้อมการบูรณาการมากกว่า 300 รายการ ลดต้นทุนโทเค็นลง 30%

05-09 04:01

Ant Bailing เปิดตัวโมเดล AI ขนาดพารามิเตอร์ 2.6-1 ล้านล้านพารามิเตอร์ ด้วยคะแนน PinchBench 87.6

05-09 04:00

Baidu เปิดตัว Wenxin 5.1 โดยมีต้นทุนการพรีเทรนเพียง 6% ของเกณฑ์มาตรฐานอุตสาหกรรม

05-08 10:45