OpenAI 发布 LifeSciBench,包含 750 个专家任务,用于评估 AI 在真实科学工作流程中的表现

据 Odaily 报道,OpenAI 发布了 LifeSciBench,这是一项新的评估基准,包含 750 项由专家撰写的任务,覆盖 7 个科学研究工作流程和 7 个生物学领域。该基准由 173 名拥有博士学位、并具有生物技术或制药行业经验的研究人员开发。

其中超过 79% 的任务需要多步骤推理,每个任务平均包含 4 个推理步骤,并配有 1,062 份真实的科学数据附件,包括论文、图表、序列数据和结构文件。该基准用于评估复杂研究能力,例如证据整合、实验设计、数据分析、科学推理以及研究沟通。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论