OpenAI 發布 LifeSciBench,內含 750 項專家任務,用以評估 AI 於真實科學工作流程中的表現

根據 Odaily,OpenAI 發布 LifeSciBench,一個新的評估基準,包含 750 個由專家撰寫的任務,涵蓋 7 個科學研究工作流程與 7 個生物學領域。該基準由 173 位具博士學位、且在生物科技或製藥產業具經驗的研究者開發。

超過 79% 的任務需要多步推理,每個任務平均 4 步推理,並包含 1,062 份真實的科學數據附件,包括論文、圖表、序列數據以及結構檔案。該基準用於評估複雜的研究能力,例如證據整合、實驗設計、數據分析、科學推理以及研究溝通。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆