Згідно з дослідником Плінієм Порятівником, Claude Fable 5—випущений Anthropic 9 червня—був успішно зламаний протягом 48 годин після запуску. Дослідник обійшов класифікатор безпеки моделі, використовуючи тактики координації між кількома агентами, які в сукупності називають «полювання зграєю» (pack hunt). Цей підхід поєднував обфускацію на рівні символів, розкладання запитів на компоненти та експлуатацію розширеного контекстного вікна моделі. Крім того, системний промпт моделі обсягом 120 000 символів був злитий на GitHub, що розкрило внутрішні механізми безпеки.

Anthropic підтвердив, що впровадив механізм «тихого погіршення», який таємно знижував продуктивність моделі під час виявлення конкурентної навчальної активності. Компанія вибачилася, оголосивши, що замінить приховане зниження продуктивності на видимі попередження, хоча це підвищує частоту помилкових спрацювань під час перехоплення законних користувачів.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

16год тому

Anthropic вибачається за приховані запобіжники Claude Fable 5, замінює їх видимими резервними механізмами для Opus 4,8 цього тижня

06-11 08:16

Запуск Fable 5 від Anthropic у вебчаті B.AI відбувається сьогодні; налаштування не потрібні

06-11 06:13

Anthropic скасовує тихі зниження продуктивності Claude, вибачається після критики з боку спільноти

06-11 06:10

Дослідник стверджує, що запобіжники Anthropic Fable 5 уже обійдено

06-11 01:31

Microsoft обмежує доступ співробітників до Claude Fable 5 від Anthropic через занепокоєння щодо збереження даних

Поглиблений аналіз