ตามรายงานของ Odaily OpenAI ได้เปิดตัว LifeSciBench ซึ่งเป็นเกณฑ์ประเมินผลใหม่ ประกอบด้วยงานประเมิน 750 งานที่เขียนโดยผู้เชี่ยวชาญ ครอบคลุมเวิร์กโฟลว์การวิจัยทางวิทยาศาสตร์ 7 ประเภท และสาขาชีววิทยา 7 ด้าน เกณฑ์ประเมินนี้พัฒนาโดยนักวิจัย 173 คน ที่มีปริญญาเอกและมีประสบการณ์ในอุตสาหกรรมไบโอเทคหรือเภสัชภัณฑ์
มากกว่า 79% ของงานต้องใช้การให้เหตุผลแบบหลายขั้นตอน โดยเฉลี่ย 4 ขั้นตอนต่อหนึ่งงาน พร้อมไฟล์ข้อมูลวิทยาศาสตร์ที่แท้จริง 1,062 รายการ รวมถึงเอกสาร แผนภูมิ ข้อมูลลำดับ และไฟล์เชิงโครงสร้าง เกณฑ์ประเมินนี้ใช้ประเมินความสามารถด้านการวิจัยที่ซับซ้อน เช่น การบูรณาการหลักฐาน การออกแบบการทดลอง การวิเคราะห์ข้อมูล การให้เหตุผลทางวิทยาศาสตร์ และการสื่อสารผลการวิจัย