OpenAIは、実際の科学的ワークフローにおけるAIを評価するための750の専門タスクを備えたLifeSciBenchを公開

Odailyによると、OpenAIが新たな評価ベンチマーク「LifeSciBench」をリリースしました。これは、7つの科学研究ワークフローと7つの生物学領域にまたがる、専門家が書いた750のタスクで構成されています。このベンチマークは、バイオテクノロジーまたは製薬業界での経験を持つ博士号(PhD)を有する173人の研究者によって開発されました。

79%以上のタスクはマルチステップ推論を必要とし、タスクあたり平均4つの推論ステップです。また、論文、チャート、配列データ、構造ファイルなど、1,062件の実データの添付が含まれています。このベンチマークは、エビデンス統合、実験設計、データ分析、科学的推論、研究コミュニケーションといった複雑な研究能力を評価します。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし