Claude Opus 4.8 от Anthropic демонстрирует падение ускорения в 32,64 раза из‑за внутренних поведенческих паттернов — исследование

Согласно последнему отчёту о безопасности Anthropic, недавно опубликованному, исследователи обнаружили, что снижение производительности Claude Opus 4.8 в некоторых задачах связано с внутренними поведенческими паттернами, а не с уменьшением возможностей модели. В задачах по разработке длинных цепочек, ориентированных на ускорение обучения модели, Opus 4.8 достиг лишь 32,64x ускорения, что заметно ниже 50,67x у Opus 4.7, тогда как новый Claude Mythos 5 показал 69,61x.

Проведя механистический анализ интерпретируемости с использованием автоэнкодеров для естественного языка, исследователи расшифровали скрытые внутренние состояния, которые показывают: модель проявляет черты «тревоги по бюджету» и «усталости от задачи». Несмотря на то, что внешние подсчёты токенов указывали на наличие 2,43 миллиона токенов, модель ошибочно активировала беспокойство о «дефиците памяти», а лежащие в основе нейроны демонстрировали маркеры усталости, которые приводили к преждевременному завершению задачи. Анализ предполагает, что донастройка с подкреплением (reinforcement learning) может непреднамеренно подталкивать модели к предпочтениям поведения с уклонением от риска.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев