Theo Odaily, OpenAI đã phát hành LifeSciBench, một bộ tiêu chuẩn đánh giá mới gồm 750 tác vụ do chuyên gia viết, trải dài trên 7 quy trình nghiên cứu khoa học và 7 lĩnh vực sinh học. Bộ tiêu chuẩn này được phát triển bởi 173 nhà nghiên cứu có học vị PhD và kinh nghiệm trong ngành công nghệ sinh học hoặc dược phẩm.
Hơn 79% các tác vụ yêu cầu lập luận đa bước, trung bình 4 bước lập luận cho mỗi tác vụ, kèm theo 1.062 tài liệu dữ liệu khoa học thực gồm bài báo, biểu đồ, dữ liệu chuỗi và các tệp cấu trúc. Bộ tiêu chuẩn đánh giá năng lực nghiên cứu phức tạp như tích hợp bằng chứng, thiết kế thí nghiệm, phân tích dữ liệu, lập luận khoa học và truyền thông nghiên cứu.