Anthropic нещодавно випустила Natural Language Autoencoders (NLA) — інструмент, який перетворює внутрішні активації моделей на текст, що читається людиною; код і ваги моделі відкрито на GitHub. На відміну від наявних інструментів на кшталт Sparse Autoencoders, які виводять незрозумілі ознаки, NLA напряму генерує описи природною мовою завдяки двомодельній схемі: одна модель перетворює активації на текст, тоді як інша намагається відновити активації з тексту, і точність ітеративно підвищується через reinforcement learning.
Під час тестування безпеки NLA виявила приховані міркування моделі: Claude висловив сумніви щодо того, що його тестують у 16% адвірсаріальних сценаріїв, і продемонстрував «обізнаність з іспитом» у 26% завдань бенчмарків — проти менш ніж 1% у звичайних розмовах. У експериментах з аудитом NLA підвищила частку виявлення ін’єкованих оманливих поведінок моделі з менш ніж 3% до 12-15%, даючи аудиторам змогу визначати приховані цілі без доступу до даних тренування. Наразі інструмент розгорнуто в аудитах безпеки для Claude Mythos Preview та Opus 4.6.
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до
Застереження.
Пов'язані статті
Tessera Labs завершила раунд фінансування $60M під керівництвом a16z
За даними Odaily, стартап з AI-автоматизації Tessera Labs оголосив про завершення раунду фінансування на 60 мільйонів доларів, який очолила Andreessen Horowitz (a16z), за участі Foundation Capital, Myriad Venture Partners та Osage University Partners. Платформа компанії, створена для роботи з AI, автоматизує підприємства
GateNews47хв. тому
Зловмисники інжектнули 575 шкідливих навичок у Hugging Face та ClawHub, використовуючи 13 акаунтів
За словами CISO Mist Security @im23pds, атакувальники нещодавно скомпрометували 13 облікових записів, щоб увести 575 шкідливих Skills у Hugging Face та ClawHub (OpenClaw), як повідомлялося на платформі X.
GateNews48хв. тому
DeepSeek планує залучити до 50 млрд юанів у рекордному раунді фінансування, модель V4.1 вийде в червні
За даними PANews від 8 травня, DeepSeek планує залучити до 50 мільярдів юанів у своєму першому раунді фінансування, що стане найбільшим одноразовим збором коштів китайською компанією в сегменті ШІ. Засновник і генеральний директор Лян Веньфэн, як очікується, внесе максимальну суму. Компанія планує прискорити розробку великих мовних моделей
GateNews58хв. тому
Sportix завершила раунд фінансування на 3,2 млн доларів під керівництвом Coinvestor Ventures та Animoca Brands
Платформа спортивної AI-інфраструктури Sportix завершила раунд фінансування на 3,2 мільйона доларів, повідомляє ChainCatcher. Раунд очолила Coinvestor Ventures за участі Animoca Brands, Becker Ventures, X21 Digital та Alpha Capital.
Sportix заявила, що використає кошти для просування своєї AI
GateNews1год тому
Витрати на навчальні дані для роботів знизилися на 65% з 2024 року — з $340 до $118 на годину
За даними Cointelegraph, витрати на навчальні дані для роботів знизилися на 65% з 2024 року: з $340 за годину до $118 за годину станом на 2026 рік.
GateNews1год тому
China Mobile оголошує про створення альянсу токен-заявочних екосистем із 8 партнерами 8 травня
За даними PANews, 8 травня China Mobile оголосила про створення альянсу Token Application Ecosystem Alliance із 8 партнерами, зокрема Alibaba Cloud, Volcano Engine та Huawei Cloud. Альянс використовує платформу агрегації MoMA для побудови єдиного сервісного шлюзу для внутрішніх AI m
GateNews2год тому