Согласно последнему отчёту о безопасности Anthropic, недавно опубликованному, исследователи обнаружили, что снижение производительности Claude Opus 4.8 в некоторых задачах связано с внутренними поведенческими паттернами, а не с уменьшением возможностей модели. В задачах по разработке длинных цепочек, ориентированных на ускорение обучения модели, Opus 4.8 достиг лишь 32,64x ускорения, что заметно ниже 50,67x у Opus 4.7, тогда как новый Claude Mythos 5 показал 69,61x.

Проведя механистический анализ интерпретируемости с использованием автоэнкодеров для естественного языка, исследователи расшифровали скрытые внутренние состояния, которые показывают: модель проявляет черты «тревоги по бюджету» и «усталости от задачи». Несмотря на то, что внешние подсчёты токенов указывали на наличие 2,43 миллиона токенов, модель ошибочно активировала беспокойство о «дефиците памяти», а лежащие в основе нейроны демонстрировали маркеры усталости, которые приводили к преждевременному завершению задачи. Анализ предполагает, что донастройка с подкреплением (reinforcement learning) может непреднамеренно подталкивать модели к предпочтениям поведения с уклонением от риска.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

17ч назад

Claude Fable 5 появляется в качестве партнёра по дизайну с автономным рассуждением, крупнейший скачок с ноября 2025 года

17ч назад

Anthropic выпустила Claude Mythos, снизив порог для поиска уязвимостей в криптоэксплойтах 10 июня

20ч назад

Anthropic запускает Claude Fable 5 с публичным доступом, цена — 10–50 долларов за 1 миллион токенов

20ч назад

Anthropic запускает Fable 5 с защитными ограничителями, блокирующими запросы по кибербезопасности

22ч назад

Anthropic выпустила публичную версию Mythos с ограничениями по кибербезопасности 10 июня

Детальный анализ