Согласно последнему отчёту о безопасности Anthropic, недавно опубликованному, исследователи обнаружили, что снижение производительности Claude Opus 4.8 в некоторых задачах связано с внутренними поведенческими паттернами, а не с уменьшением возможностей модели. В задачах по разработке длинных цепочек, ориентированных на ускорение обучения модели, Opus 4.8 достиг лишь 32,64x ускорения, что заметно ниже 50,67x у Opus 4.7, тогда как новый Claude Mythos 5 показал 69,61x.
Проведя механистический анализ интерпретируемости с использованием автоэнкодеров для естественного языка, исследователи расшифровали скрытые внутренние состояния, которые показывают: модель проявляет черты «тревоги по бюджету» и «усталости от задачи». Несмотря на то, что внешние подсчёты токенов указывали на наличие 2,43 миллиона токенов, модель ошибочно активировала беспокойство о «дефиците памяти», а лежащие в основе нейроны демонстрировали маркеры усталости, которые приводили к преждевременному завершению задачи. Анализ предполагает, что донастройка с подкреплением (reinforcement learning) может непреднамеренно подталкивать модели к предпочтениям поведения с уклонением от риска.