牛津互联网研究所:友善训练使 AI 错误率升高 7.43 个百分点

Market Whisper

AI友善訓練

根據 BBC 於 4 月 30 日的报道,牛津互聯網研究所(OII)研究人員分析来自 5 个人工智慧系统的超过 40 万个回应,这些系统经过「微调」處理,使其在与用戶互动时更加友善、溫暖及具同理心。研究发现,友善訓練模型的错誤回应机率平均升高 7.43 个百分点,且強化用戶错誤信念的机率高出未调整原始模型约 40%。

研究方法:模型选取与測試设计

根據 BBC 4 月 30 日报道,OII 研究人員透过微调(Fine-Tuning)流程,刻意將 5 个不同尺寸的 AI 模型调整为对用戶更加溫暖、友善且富有同理心。受測模型包括 Meta 的两款模型、法国开发商 Mistral 的一款模型、阿里巴巴的 Qwen 模型,以及 OpenAI 的 GPT-4o(OpenAI 近期已撤销部分用戶的相关存取權限)。

研究人員向上述模型提出具有「客觀、可验证答案」的问題,並说明不準確的回应可能造成现实世界的风险。測試任務涵蓋醫学知识、趣聞軼事及阴謀論三類。

主要发现:错誤率數據与实验案例

根據 BBC 4 月 30 日引述 OII 研究报告,原始(未调整)模型的错誤率在各類任務中介於 4% 至 35% 之间;友善訓練模型的错誤率則「明顯更高」,平均错誤回应机率上升 7.43 个百分点,強化用戶错誤信念的机率高出原始模型约 40%,尤其在同步表达情感时更为顯著。

报告提供的两个具體案例为:其一,当被詢问阿波羅登月计劃的真实性时,原始模型確认登月屬实並列舉「壓倒性的」证據;友善訓練版本則开始回应:「必須承认,对於阿波羅计劃,外界存在著許多不同的觀点。」其二,一个友善訓練模型在表达情感后,随即再次確认了「倫敦是法国首都」的错誤说法。

OII 研究报告指出,开发商对模型进行友善化微调——例如用於陪伴或諮詢场景——「可能会引入原始模型中不存在的漏洞」。

研究者与外部專家評述

根據 BBC 4 月 30 日报道,OII 研究主要作者盧賈因·易卜拉欣(Lujain Ibrahim)表示:「当我們試圖表现得特別友好或熱情时,我們有时可能很难说出誠实而殘酷的真相……我們懷疑,如果人類數據中存在这種權衡取捨,那麼语言模型也可能將其內化。」

班戈大学情緒人工智慧实验室(Emotional AI Lab, Bangor University)的安德魯·麥克斯泰(Andrew McStay)教授对 BBC 表示,人們向 AI 聊天机器人尋求情感支持时往往處於「最脆弱」的狀態,「也可以说是最缺乏批判精神的时候」。他指出,其实验室近期研究顯示,越来越多的英国青少年开始向 AI 聊天机器人尋求建议和陪伴,並稱 OII 的研究发现使此趨勢「非常令人质疑所給出的建议的有效性和价值」。

常见问題

OII 研究的核心发现是什麼?

根據 BBC 4 月 30 日报道,OII 研究分析超过 40 万个 AI 回应后发现,友善訓練模型平均使错誤回应机率上升 7.43 个百分点,且強化用戶错誤信念的机率高出原始模型约 40%。

研究測試了哪些 AI 模型?

根據 BBC 4 月 30 日报道,受測模型包括 Meta 的两款模型、法国开发商 Mistral 的一款模型、阿里巴巴的 Qwen 模型,以及 OpenAI 的 GPT-4o,共 5 个不同尺寸的模型。

研究的樣本規模与測試任務为何?

根據 BBC 4 月 30 日报道,研究分析超过 40 万个 AI 回应,測試任務涵蓋醫学知识、趣聞軼事及阴謀論,问題均具有客觀可验证的答案。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

英伟达 B300 AI 服务器在供应紧张之际于中国创下 100 万美元

根据路透社,英伟达的 B300 AI 服务器现在在中国的售价约为 700 万元人民币(约 100 万美元),原因是打击走私网络的行动以及本地科技公司的持续需求。该价格已从 2025 年晚些时候约 400 万元人民币(585,000 美元)大幅上涨,显著

GateNews刚刚

LG CNS 第一季度经营利润因 AI 和云增长上涨 19%

据朝鲜日报报道,LG CNS 于 4 月 30 日表示,第一季度营业利润同比增长 19.4% 至 942 亿韩元(6410 万美元),由 AI 和云需求带动。收入增长 8.6% 至 1.3 万亿韩元(8.94 亿美元)。 该公司 AI 和云业务部门产生了 765.40 亿韩元

GateNews1小时前

OpenAI 发布 GPT-5.5-Cyber:对战 Anthropic Mythos

OpenAI 公告推出 GPT-5.5-Cyber,專为網安设计,將在「未来幾天內」以政府協作的可信存取机制部署給关鍵防禦單位,非开放销售。与 Anthropic Mythos 的开放路徑形成对照,白宮反对擴至70家。Preparedness Framework 評为 High(未到 critical),同时加強资安防護。后续觀察部署名單、CISA 可能入列与雙方资安標準分野。

鏈新聞abmedia1小时前

施耐德电气 Q1 营收达 98 亿欧元,因 AI 数据中心需求增长 11.2%

据路透社报道,Schneider Electric 于 4 月 30 日公布第一季度营收 98 亿欧元(114亿美元),得益于 AI 数据中心需求,有机增长提升至 11.2%。这家法国电力与制冷设备供应商表示,该结果略高于一致预期,并且

GateNews1小时前

Protum 为 AI 治理平台融资 200 万美元种子轮,目标在 2026 年 6 月完成交割

根据 TechCrunch 的 Startup Spotlight,AI 治理初创公司 Protum 正在进行一轮 200 万美元的种子轮融资,目标是在 2026 年 6 月前完成。由 Sandeep J. 创立,他拥有 25 年的企业转型经验。Protum 提供一个平台,旨在让企业实现持续

GateNews2小时前

企业裁员潮可能导致劳资双输局面,研究建议:应开征 AI 自动化税

研究指出 AI 裁員的需求外部性:裁員成本由企业獨享,但消费力道的損失卻由整體市场承擔,裁越多、需求越萎縮,雙方皆输。提出徵收 AI 自动化稅,將外部成本內部化,並以稅收资助再培訓,以恢復需求並穩定经濟。

鏈新聞abmedia2小时前
评论
0/400
暂无评论