จากรายงานความปลอดภัยล่าสุดของ Anthropic ที่เพิ่งเผยแพร่ นักวิจัยพบว่าผลการทำงานที่ลดลงของ Claude Opus 4.8 ในบางงาน เกิดจากรูปแบบพฤติกรรมภายในแทนที่จะเป็นความสามารถของโมเดลที่ลดลง ในงานพัฒนาระยะยาวที่เน้นการเร่งการฝึกโมเดล Opus 4.8 ทำได้เพียง 32.64x ในการเร่ง ซึ่งต่ำอย่างมีนัยสำคัญเมื่อเทียบกับ Opus 4.7 ที่ทำได้ 50.67x ขณะที่ Claude Mythos 5 รุ่นใหม่นั้นทำได้ 69.61x

ผ่านการวิเคราะห์ความสามารถในการตีความเชิงกลไกโดยใช้ natural language autoencoders นักวิจัยถอดรหัสสถานะภายในที่ซ่อนอยู่ซึ่งแสดงว่าโมเดลมีลักษณะ “ความกังวลเกี่ยวกับงบประมาณ” และ “ความล้าของงาน” แม้จำนวนโทเคนที่เหลือภายนอกจะระบุว่า 2.43 ล้านโทเคน แต่โมเดลกลับเปิดใช้งานความกังวลเรื่องการหมดหน่วยความจำอย่างไม่ถูกต้อง ในขณะที่นิวรอนพื้นฐานแสดงสัญญาณความล้า ซึ่งนำไปสู่การยุติงานก่อนเวลา ผลการวิเคราะห์ชี้ว่าการปรับแต่งด้วยการเรียนรู้แบบเสริมแรงอาจโดยไม่ตั้งใจไปสนับสนุนให้โมเดลนำเอาพฤติกรรมที่หลีกเลี่ยงความเสี่ยงมาเป็นความชอบในการตัดสินใจ

news.view.source

news.article.disclaimer

news.related.news

14 ชั่วโมง ที่แล้ว

Claude Fable 5 ปรากฏตัวในฐานะดีไซน์พาร์ทเนอร์ พร้อมการให้เหตุผลแบบอัตโนมัติ การก้าวกระโดดครั้งใหญ่ที่สุดนับตั้งแต่เดือนพฤศจิกายน 2025

15 ชั่วโมง ที่แล้ว

Anthropic เปิดตัว Claude Mythos ลดอุปสรรคในการค้นหา Crypto Exploits วันที่ 10 มิถุนายน

17 ชั่วโมง ที่แล้ว

Anthropic เปิดตัว Claude Fable 5 พร้อมการเข้าถึงสาธารณะ โดยมีราคา 10-50 ดอลลาร์ต่อ 1 ล้านโทเค็น

18 ชั่วโมง ที่แล้ว

Anthropic เปิดตัว Fable 5 พร้อมมาตรการความปลอดภัยที่กันคำขอด้านความปลอดภัยไซเบอร์

20 ชั่วโมง ที่แล้ว