神話 5 讓通才型博士能在 16 小時生物防禦紅隊中超越專家

根據 Anthropic 的系統卡披露,Mythos 5 模型讓通才型微生物學家在一場 16 小時的生物防禦紅隊演練中表現優於專家型人士:在科學品質與可行性方面,有 2 個之 3 個通才團隊的表現超越了全部 3 個專家團隊。專家估計,在沒有 AI 協助的情況下,完成此任務通常需要 40 至 95 個工作日,平均為 72.5 天。

不過,Anthropic 指出,Mythos 5 在自主研究能力上仍受限。該模型在開放式發想方面表現薄弱,傾向於將既有文獻進行重組,而非提出新的方法;即使在辨識出缺陷之後,仍可能持續追求有問題的框架。CUSP 科學預測基準也佐證了這些發現:GPT-5.4 在機制辨識任務上達到 81.9% 的準確率,但在二元分類「科學進展是否會實際成功」上僅有 45.3% 至 51.9% 的準確率,接近隨機猜測的水準。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆