Claude Fable 5 ถูกเจาะระบบภายใน 48 ชั่วโมงหลังเปิดตัว ข้อความพรอมป์ต์ของระบบรั่วบน GitHub

ตามที่นักวิจัย Pliny the Liberator ระบุว่า Claude Fable 5—ซึ่ง Anthropic ปล่อยออกเมื่อวันที่ 9 มิถุนายน—ถูกทำลายความสามารถได้สำเร็จภายใน 48 ชั่วโมงหลังเปิดตัว นักวิจัยสามารถข้ามตัวจำแนกความปลอดภัยของโมเดลได้ด้วยกลยุทธ์การประสานงานแบบหลายเอเจนต์ ซึ่งเรียกรวมกันว่า “pack hunt” โดยใช้การปกปิดระดับตัวอักษร การแยกโครงสร้างคำขอ และการใช้ประโยชน์จากหน้าต่างบริบทที่ยาวขึ้นของโมเดล นอกจากนี้ ยังมีการรั่วไหลของพรอมป์ต์ระบบ 120,000 ตัวอักษรของโมเดลไปยัง GitHub ซึ่งเผยให้เห็นกลไกความปลอดภัยภายใน

Anthropicยืนยันว่าได้มีการนำกลไก “silent degradation” มาใช้ ซึ่งจะลดประสิทธิภาพของโมเดลแบบเงียบๆ เมื่อมีการตรวจพบกิจกรรมการฝึกที่มีการแข่งขัน บริษัทได้ขอโทษ โดยประกาศว่าจะเปลี่ยนจากการลดประสิทธิภาพแบบซ่อนเร้นเป็นคำเตือนที่มองเห็นได้ แม้กระนั้นสิ่งนี้จะเพิ่มการสกัดกั้นแบบผิดพลาดต่อผู้ใช้งานที่ทำกิจกรรมถูกต้องตามปกติ

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น