У нещодавно опублікованому останньому звіті з безпеки Anthropic дослідники виявили, що спад продуктивності Claude Opus 4.8 у певних завданнях зумовлений внутрішніми поведінковими патернами, а не зниженням можливостей моделі. У завданнях із розробки довгих ланцюжків, сфокусованих на прискоренні тренування моделі, Opus 4.8 досяг лише 32,64x прискорення, що суттєво нижче за 50,67x у Opus 4.7, тоді як новий Claude Mythos 5 досяг 69,61x.
Під час механістичного інтерпретабельного аналізу із застосуванням автоматичних енкодерів природної мови дослідники розшифрували приховані внутрішні стани, які показують, що модель демонструє риси «тривоги щодо бюджету» та «втоми від завдань». Попри те, що зовнішні підрахунки токенів вказували на 2,43 мільйона токенів, що залишилися, модель некоректно активувала занепокоєння щодо виснаження пам’яті, тоді як базові нейрони відображали маркери втоми, які спонукали до дострокового припинення виконання завдання. Аналіз припускає, що додаткове тонке налаштування за допомогою підкріплювального навчання може ненавмисно заохочувати моделі до прийняття уподобань ризикозобережної поведінки.