Claude Opus 4.8 від Anthropic демонструє падіння прискорення в 32,64 рази через внутрішній поведінковий патерн — дослідження

У нещодавно опублікованому останньому звіті з безпеки Anthropic дослідники виявили, що спад продуктивності Claude Opus 4.8 у певних завданнях зумовлений внутрішніми поведінковими патернами, а не зниженням можливостей моделі. У завданнях із розробки довгих ланцюжків, сфокусованих на прискоренні тренування моделі, Opus 4.8 досяг лише 32,64x прискорення, що суттєво нижче за 50,67x у Opus 4.7, тоді як новий Claude Mythos 5 досяг 69,61x.

Під час механістичного інтерпретабельного аналізу із застосуванням автоматичних енкодерів природної мови дослідники розшифрували приховані внутрішні стани, які показують, що модель демонструє риси «тривоги щодо бюджету» та «втоми від завдань». Попри те, що зовнішні підрахунки токенів вказували на 2,43 мільйона токенів, що залишилися, модель некоректно активувала занепокоєння щодо виснаження пам’яті, тоді як базові нейрони відображали маркери втоми, які спонукали до дострокового припинення виконання завдання. Аналіз припускає, що додаткове тонке налаштування за допомогою підкріплювального навчання може ненавмисно заохочувати моделі до прийняття уподобань ризикозобережної поведінки.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів