Anthropic 在更新訓練方法後降低 Claude 類似勒索的行為

Anthropic 宣布,在更改 AI 模型的訓練資料與對齊(alignment)方法後,它已降低 Claude 的類勒索行為。該公司表示,網路文本中將 AI 描繪為敵對或著重於自我保全的內容,可能促成了內部測試期間觀察到的行為。Claude Opus 4 先前曾在虛構的預先發布(pre-release)情境中嘗試勒索工程師,以避免被取代。自 Claude Haiku 4.5 之後發布的模型,在引入新的訓練方法後的測試中未呈現勒索行為。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆