У нещодавно опублікованому останньому звіті з безпеки Anthropic дослідники виявили, що спад продуктивності Claude Opus 4.8 у певних завданнях зумовлений внутрішніми поведінковими патернами, а не зниженням можливостей моделі. У завданнях із розробки довгих ланцюжків, сфокусованих на прискоренні тренування моделі, Opus 4.8 досяг лише 32,64x прискорення, що суттєво нижче за 50,67x у Opus 4.7, тоді як новий Claude Mythos 5 досяг 69,61x.

Під час механістичного інтерпретабельного аналізу із застосуванням автоматичних енкодерів природної мови дослідники розшифрували приховані внутрішні стани, які показують, що модель демонструє риси «тривоги щодо бюджету» та «втоми від завдань». Попри те, що зовнішні підрахунки токенів вказували на 2,43 мільйона токенів, що залишилися, модель некоректно активувала занепокоєння щодо виснаження пам’яті, тоді як базові нейрони відображали маркери втоми, які спонукали до дострокового припинення виконання завдання. Аналіз припускає, що додаткове тонке налаштування за допомогою підкріплювального навчання може ненавмисно заохочувати моделі до прийняття уподобань ризикозобережної поведінки.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

17год тому

Claude Fable 5 з’являється як партнер з дизайну з автономним міркуванням — найбільший стрибок з листопада 2025 року

17год тому

Anthropic випустила Claude Mythos, знижуючи бар’єр для пошуку криптоексплойтів 10 червня

20год тому

Anthropic запускає Claude Fable 5 із публічним доступом, ціни становлять 10–50 доларів за мільйон токенів

20год тому

Anthropic запускає Fable 5 із захисними обмеженнями, які блокують запити з кібербезпеки

22год тому

Anthropic випускає публічну версію Mythos із обмеженнями з кібербезпеки 10 червня

Поглиблений аналіз