ตามที่นักวิจัย Pliny the Liberator ระบุว่า Claude Fable 5—ซึ่ง Anthropic ปล่อยออกเมื่อวันที่ 9 มิถุนายน—ถูกทำลายความสามารถได้สำเร็จภายใน 48 ชั่วโมงหลังเปิดตัว นักวิจัยสามารถข้ามตัวจำแนกความปลอดภัยของโมเดลได้ด้วยกลยุทธ์การประสานงานแบบหลายเอเจนต์ ซึ่งเรียกรวมกันว่า “pack hunt” โดยใช้การปกปิดระดับตัวอักษร การแยกโครงสร้างคำขอ และการใช้ประโยชน์จากหน้าต่างบริบทที่ยาวขึ้นของโมเดล นอกจากนี้ ยังมีการรั่วไหลของพรอมป์ต์ระบบ 120,000 ตัวอักษรของโมเดลไปยัง GitHub ซึ่งเผยให้เห็นกลไกความปลอดภัยภายใน

Anthropicยืนยันว่าได้มีการนำกลไก “silent degradation” มาใช้ ซึ่งจะลดประสิทธิภาพของโมเดลแบบเงียบๆ เมื่อมีการตรวจพบกิจกรรมการฝึกที่มีการแข่งขัน บริษัทได้ขอโทษ โดยประกาศว่าจะเปลี่ยนจากการลดประสิทธิภาพแบบซ่อนเร้นเป็นคำเตือนที่มองเห็นได้ แม้กระนั้นสิ่งนี้จะเพิ่มการสกัดกั้นแบบผิดพลาดต่อผู้ใช้งานที่ทำกิจกรรมถูกต้องตามปกติ

news.view.source

news.article.disclaimer

news.related.news

16 ชั่วโมง ที่แล้ว

Anthropic ขอโทษสำหรับกลไกป้องกันที่ซ่อนอยู่ 5 รายการของ Claude Fable และแทนที่ด้วยมาตรการสำรองที่มองเห็นได้ใน Opus 4.8 สัปดาห์นี้

06-11 08:16

Claude Fable 5 ของ Anthropic เปิดตัวบนแชตเว็บ B.AI วันนี้ ไม่ต้องตั้งค่าใดๆ

06-11 06:13

Anthropic ยกเลิกการปรับลดประสิทธิภาพ Claude แบบเงียบ ๆ ขอโทษ หลังชุมชนออกมาตอบโต้

06-11 06:10

นักวิจัยกล่าวอ้างว่าเครื่องมือป้องกันของ Anthropic Fable 5 ถูกเจาะทะลุแล้ว

06-11 01:31