Claude Fable 5 зламали протягом 48 годин після релізу; системний промпт витек на GitHub

Згідно з дослідником Плінієм Порятівником, Claude Fable 5—випущений Anthropic 9 червня—був успішно зламаний протягом 48 годин після запуску. Дослідник обійшов класифікатор безпеки моделі, використовуючи тактики координації між кількома агентами, які в сукупності називають «полювання зграєю» (pack hunt). Цей підхід поєднував обфускацію на рівні символів, розкладання запитів на компоненти та експлуатацію розширеного контекстного вікна моделі. Крім того, системний промпт моделі обсягом 120 000 символів був злитий на GitHub, що розкрило внутрішні механізми безпеки.

Anthropic підтвердив, що впровадив механізм «тихого погіршення», який таємно знижував продуктивність моделі під час виявлення конкурентної навчальної активності. Компанія вибачилася, оголосивши, що замінить приховане зниження продуктивності на видимі попередження, хоча це підвищує частоту помилкових спрацювань під час перехоплення законних користувачів.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів