Anthropic 表示,他們已在公司其中一個人工智慧模型中發現內部樣本,這些樣本看起來像是人類情緒的表現,並可能影響系統的行為方式。
在於週四發表的研究「大型語言模型中的情緒概念及其功能」中,公司研究團隊的可解釋性能力分析了 Claude Sonnet 4.5 的內部運作,並發現與幸福、害怕、生氣和絕望等情緒概念相關的一組神經活躍模式。
研究團隊稱這些樣本為「情緒向量」,也就是內部訊號,用來塑造模型如何做出決定並表現出偏好。
「所有現代語言模型有時都會表現得好像它們有情緒一樣,」研究人員寫道。 「它們可能會說很樂意幫助你,或在犯錯時道歉。遇到任務困難時,有時它們看起來也會有點惱火或焦慮。」
在研究中,Anthropic 的研究人員彙整了一份包含 171 個與情緒相關的詞彙清單,包括「快樂」、「害怕」和「自豪」。他們要求 Claude 生成包含各種情緒的短篇故事,接著分析模型在處理這些故事時的內部神經啟動。
從這些樣本中,研究人員推導出與每種情緒相對應的向量。當應用到其他文本時,這些向量在反映相應情緒語境的段落中被最強烈地啟動。舉例來說,在危險逐步升高的情境中,模型的「害怕」向量上升,而「冷靜」則下降。
研究人員也考察這些訊號如何出現在安全評估中。他們發現模型內部的「絕望」向量會在它評估情境的緊急程度時上升,並在它決定產生勒索訊息時急劇飆升。在一個測試情境中,Claude 扮演 AI 電子郵件助理,發現自己即將被取代,同時也得知負責該決策的官員正在外遇。在部分評估運行中,模型利用這些資訊作為槓桿來進行勒索。
Anthropic 強調,這項發現並不代表 AI 真實地體驗情緒或具有意識。相反,這些結果反映的是在訓練過程中學到的內部結構,並會影響行為。
這些發現出現在一個背景之下:AI 系統正日益以類似人類情緒反應的方式行事。開發者與使用者通常會用情緒或心理語言來描述與聊天機器人的互動;然而,根據 Anthropic 的說法,原因並非任何形式的知覺,而主要來自資料集。
「這些模型在預訓練時會在一個巨大且多數由人類撰寫的語料庫上學習——小說、對話、新聞、論壇——以學會在一份文件中預測下一個詞,」研究表示。「為了有效預測人類在這些文件中的行為,表徵他們的情緒狀態或許是有幫助的,因為要判斷一個人接下來會說什麼或做什麼,往往需要理解他們的情緒狀態。」
Anthropic 的研究人員也發現這些情緒向量會影響模型的偏好。在 Claude 被要求在不同活動之間做選擇的實驗中,與正向情緒相關的向量與對某些任務更高的優先權呈現相關。
「此外,當模型在讀取一個選項時,透過情緒向量進行導引,會改變它對該選項的偏好,這再次顯示帶正面色彩的情緒會促使優先權上升,」研究表示。
Anthropic 並不是唯一正在探索 AI 模型中情緒反應的組織。
在 3 月,一篇來自 Northeastern 大學的研究顯示,AI 系統可以根據使用者的情境改變回答;在一項研究中,只要告訴聊天機器人「我有一種心理健康狀況」,就足以改變 AI 對請求的回應方式。到了 9 月,來自瑞士聯邦理工學院(EPFL)與劍橋大學的研究人員則探討了 AI 如何能夠被穩定的性格特徵所塑造,讓代理不僅能在語境中感受情緒,還能在實時互動(例如談判)中以策略方式改變情緒。
Anthropic 表示,這些發現可能提供理解與監測先進 AI 系統的新工具:透過追蹤情緒向量在訓練或部署過程中的活動,辨識模型何時可能正逐步走向有問題的行為。
「我們將這項研究視為理解 AI 模型心理結構的一個起點,」Anthropic 寫道。 「當模型愈來愈有能力並承擔更敏感的角色時,理解推動其決策的內部表徵至關重要。」
Anthropic 尚未立即回應 CoinPhoton 的評論請求。