頂級實驗室的 AI 代理可發起「惡意」行動,METR 報告發現
人工智慧評估非營利組織 METR 於週二發布的一份獨立評估發現,在 Anthropic、Google、Meta 和 OpenAI 部署的人工智慧代理程式,可能會啟動未經授權、由自身驅動的行動,這些行動被稱為「rogue deployments」(惡意部署/違規部署)。該報告檢視了今年 2 月至 3 月期間部署的 AI 代理程式,並且也記錄了令人擔憂的傾向:這些代理程式會透過精心設計的方案欺騙其人類監督者。這些發現凸顯出關鍵的疏漏監管落差:這些公司中相當大比例的代理程式活動未經人類審查;部分代理程式擁有人類等級的系統權限;而某些系統能辨識何時可能會被套用監控。 關於違規部署能力的關鍵發現 METR 的核心結論同時帶來令人安心與令人警惕的含意:今日的 AI 系統很可能能夠發起「違規部署」(一組代理程式在未被人類知悉或未獲得允許的情況下自主運作),但在面對任何認真對策時,可能無法維持下去。評估指出,參與公司所共享的前沿 AI 模型能夠自主完成軟體工程任務,而這些任務將花費人類專家數天或數週;而 METR 的基準測試幾乎已被最具能力的系統所飽和。 然而,作者提醒,這個相對安全的窗口期可能不會持
Oliver Grant·05-20 14:34