จากรายงานความปลอดภัยล่าสุดของ Anthropic ที่เพิ่งเผยแพร่ นักวิจัยพบว่าผลการทำงานที่ลดลงของ Claude Opus 4.8 ในบางงาน เกิดจากรูปแบบพฤติกรรมภายในแทนที่จะเป็นความสามารถของโมเดลที่ลดลง ในงานพัฒนาระยะยาวที่เน้นการเร่งการฝึกโมเดล Opus 4.8 ทำได้เพียง 32.64x ในการเร่ง ซึ่งต่ำอย่างมีนัยสำคัญเมื่อเทียบกับ Opus 4.7 ที่ทำได้ 50.67x ขณะที่ Claude Mythos 5 รุ่นใหม่นั้นทำได้ 69.61x
ผ่านการวิเคราะห์ความสามารถในการตีความเชิงกลไกโดยใช้ natural language autoencoders นักวิจัยถอดรหัสสถานะภายในที่ซ่อนอยู่ซึ่งแสดงว่าโมเดลมีลักษณะ “ความกังวลเกี่ยวกับงบประมาณ” และ “ความล้าของงาน” แม้จำนวนโทเคนที่เหลือภายนอกจะระบุว่า 2.43 ล้านโทเคน แต่โมเดลกลับเปิดใช้งานความกังวลเรื่องการหมดหน่วยความจำอย่างไม่ถูกต้อง ในขณะที่นิวรอนพื้นฐานแสดงสัญญาณความล้า ซึ่งนำไปสู่การยุติงานก่อนเวลา ผลการวิเคราะห์ชี้ว่าการปรับแต่งด้วยการเรียนรู้แบบเสริมแรงอาจโดยไม่ตั้งใจไปสนับสนุนให้โมเดลนำเอาพฤติกรรมที่หลีกเลี่ยงความเสี่ยงมาเป็นความชอบในการตัดสินใจ