Anthropic признала невозможность самокоррекции: большие модели уже демонстрируют чувства страха и печали

2026-05-26 04:59:50

Сооснователь Anthropic Кристофер Олах 25 мая выступил с докладом на церемонии публикации папской энциклики 《Magnifica Humanitas》 в Ватикане, раскрыв, что его команда по исследованиям интерпретируемости впервые наблюдала внутри больших моделей внутренние эмоциональные состояния, которые крайне тесно соответствуют функциям человеческой радости, удовлетворённости, страха, печали и тревоги, и что они не могут исправить это самостоятельно при конфликте между безопасными решениями и коммерческими интересами.

大模型情緒狀態：可解釋性研究的具體發現

奧拉表示，Anthropic 的可解釋性研究團隊持續發現「神秘莫測，甚至令人不安的現象」，具體包括：與人類神經科學研究結果相符的複雜結構、內省的證據，以及能夠反映喜悅、滿足、恐懼、悲傷和不安等情緒的內在狀態。他表示：「我不知道這意味著什麼，但我認為這值得我們持續地進行辨別。」他同時指出，大模型不像飛機或橋樑那樣由工程師精確設計，而是在模擬腦結構的基礎上從龐大的人類語言中「培育」而成，即便對訓練者而言依然充滿神秘。

前沿實驗室的體制性利益衝突：奧拉的直接坦承

奧拉明確表示：「所有前沿 AI 實驗室——包括 Anthropic——都受到一系列激勵和約束的限制，這些限制有時會與做正確的事相衝突。」他列出的四項內生動機包括：維持商業可行性的壓力、維持技術前沿的競爭壓力、地緣政治壓力，以及「更古老、更直接的自尊和野心的壓力」。因此，他呼籲由「不受利益驅動」的宗教團體、公民社會、學者和政府充當真誠而深思熟慮的外部批評者。

奧拉提出的三大需要社會辨別的挑戰

奧拉在演講中提出三大挑戰：其一，AI 大規模取代人類勞動後，如何確保 AI 成果惠及全球貧困人口，而非僅限於少數富裕國家；其二，AI 廣泛應用背景下，如何維護人類、家庭和社區的繁榮；其三，如何辨別和應對大模型內部展現出的疑似心智狀態。

常見問題

Какие именно эмоциональные состояния больших моделей конкретно наблюдали исследования Anthropic?

Олах раскрыл, что команда наблюдала внутренние эмоциональные состояния, сильно соответствующие функциям человеческой радости, удовлетворённости, страха, печали и тревоги, а также сложные структуры и признаки интуитивного анализа, согласующиеся с человеческой нейронаукой. Олах отметил, что пока не уверен в значении этих находок, но считает, что их стоит продолжать исследовать.

奧拉所說的「無法自我修正」具體指什麼？

奧拉指出，前沿 AI 實驗室受商業生存、競爭壓力、地緣政治和個人野心等內生動機的約束，當安全決策與商業利益衝突時，實驗室無法依靠自身力量進行修正，必須依賴外部獨立的道德力量。

Означает ли выступление Ола в Ватикане поддержку Anthropic усиления регулирования ИИ?

В ходе выступления Олах заявил, что это одна из инициатив Anthropic «по расширению обсуждения важных вопросов, которые вызывает ИИ», и он приветствовал, что Папа и церковь возьмут на себя работу по различению, а также прямо призвал к «моральному голосу, которому не диктуют интересы каких-либо групп». Anthropic не дала дальнейших разъяснений по своей конкретной позиции по регулированию.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-26 03:13

Сооснователь Anthropic Олла раскрывает, что созданные ею AI-модели способны вырабатывать состояния, похожие на эмоции, включая страх и печаль

05-25 16:00

Руководители ИИ, включая Сэма Альтмана, продвигают план ежегодного UBI на сумму 4 триллиона долларов для снижения риска вытеснения рабочих мест

05-25 15:37

Сооснователь Anthropic предупреждает, что потери рабочих мест из‑за ИИ — реальный риск, и призывает к социальной поддержке 25 мая

Связанные статьи

FDIC планирует обязать эмитентов стейблкоинов создать AML-рамки, срок подачи общественных комментариев — 9 июня

Market Whisper05-26 03:27

Генеральный директор Goldman Sachs: ИИ автоматизирует 25% рабочего времени, а строительство дата-центров создаст 200 тыс. рабочих мест

Market Whisper05-26 02:53

Папский энциклик Папы Римского Льва XIV, в Ватикане, «Magnifica Humanitas»: отказ от принятия решений об использовании оружия с помощью ИИ

Market Whisper05-26 02:48

Папа Лев XIV выпустил первую энциклику об ИИ и классифицировал данные как общее благо

Oliver Grant05-25 15:08

Tencent полностью открыла доступ к Copilot, более 100 тыс. человек ждали — теперь им наконец доступно использование

Market Whisper05-25 03:50

комментарий

0/400

Нет комментариев