Anthropic признала невозможность самокоррекции: большие модели уже демонстрируют чувства страха и печали

Anthropic自我修正

Сооснователь Anthropic Кристофер Олах 25 мая выступил с докладом на церемонии публикации папской энциклики 《Magnifica Humanitas》 в Ватикане, раскрыв, что его команда по исследованиям интерпретируемости впервые наблюдала внутри больших моделей внутренние эмоциональные состояния, которые крайне тесно соответствуют функциям человеческой радости, удовлетворённости, страха, печали и тревоги, и что они не могут исправить это самостоятельно при конфликте между безопасными решениями и коммерческими интересами.

大模型情緒狀態:可解釋性研究的具體發現

奧拉表示,Anthropic 的可解釋性研究團隊持續發現「神秘莫測,甚至令人不安的現象」,具體包括:與人類神經科學研究結果相符的複雜結構、內省的證據,以及能夠反映喜悅、滿足、恐懼、悲傷和不安等情緒的內在狀態。他表示:「我不知道這意味著什麼,但我認為這值得我們持續地進行辨別。」他同時指出,大模型不像飛機或橋樑那樣由工程師精確設計,而是在模擬腦結構的基礎上從龐大的人類語言中「培育」而成,即便對訓練者而言依然充滿神秘。

前沿實驗室的體制性利益衝突:奧拉的直接坦承

奧拉明確表示:「所有前沿 AI 實驗室——包括 Anthropic——都受到一系列激勵和約束的限制,這些限制有時會與做正確的事相衝突。」他列出的四項內生動機包括:維持商業可行性的壓力、維持技術前沿的競爭壓力、地緣政治壓力,以及「更古老、更直接的自尊和野心的壓力」。因此,他呼籲由「不受利益驅動」的宗教團體、公民社會、學者和政府充當真誠而深思熟慮的外部批評者。

奧拉提出的三大需要社會辨別的挑戰

奧拉在演講中提出三大挑戰:其一,AI 大規模取代人類勞動後,如何確保 AI 成果惠及全球貧困人口,而非僅限於少數富裕國家;其二,AI 廣泛應用背景下,如何維護人類、家庭和社區的繁榮;其三,如何辨別和應對大模型內部展現出的疑似心智狀態。

常見問題

Какие именно эмоциональные состояния больших моделей конкретно наблюдали исследования Anthropic?

Олах раскрыл, что команда наблюдала внутренние эмоциональные состояния, сильно соответствующие функциям человеческой радости, удовлетворённости, страха, печали и тревоги, а также сложные структуры и признаки интуитивного анализа, согласующиеся с человеческой нейронаукой. Олах отметил, что пока не уверен в значении этих находок, но считает, что их стоит продолжать исследовать.

奧拉所說的「無法自我修正」具體指什麼?

奧拉指出,前沿 AI 實驗室受商業生存、競爭壓力、地緣政治和個人野心等內生動機的約束,當安全決策與商業利益衝突時,實驗室無法依靠自身力量進行修正,必須依賴外部獨立的道德力量。

Означает ли выступление Ола в Ватикане поддержку Anthropic усиления регулирования ИИ?

В ходе выступления Олах заявил, что это одна из инициатив Anthropic «по расширению обсуждения важных вопросов, которые вызывает ИИ», и он приветствовал, что Папа и церковь возьмут на себя работу по различению, а также прямо призвал к «моральному голосу, которому не диктуют интересы каких-либо групп». Anthropic не дала дальнейших разъяснений по своей конкретной позиции по регулированию.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев