OpenAI ra mắt LifeSciBench với 750 tác vụ chuyên gia để đánh giá AI trong các quy trình khoa học thực tế

2026-06-19 15:30:44

Theo Odaily, OpenAI đã phát hành LifeSciBench, một bộ tiêu chuẩn đánh giá mới gồm 750 tác vụ do chuyên gia viết, trải dài trên 7 quy trình nghiên cứu khoa học và 7 lĩnh vực sinh học. Bộ tiêu chuẩn này được phát triển bởi 173 nhà nghiên cứu có học vị PhD và kinh nghiệm trong ngành công nghệ sinh học hoặc dược phẩm.

Hơn 79% các tác vụ yêu cầu lập luận đa bước, trung bình 4 bước lập luận cho mỗi tác vụ, kèm theo 1.062 tài liệu dữ liệu khoa học thực gồm bài báo, biểu đồ, dữ liệu chuỗi và các tệp cấu trúc. Bộ tiêu chuẩn đánh giá năng lực nghiên cứu phức tạp như tích hợp bằng chứng, thiết kế thí nghiệm, phân tích dữ liệu, lập luận khoa học và truyền thông nghiên cứu.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

10giờ trước

OpenAI ra mắt phân tích mức sử dụng và công cụ kiểm soát chi tiêu cho ChatGPT Enterprise

13giờ trước

OpenAI ra mắt tính năng “Ghi và phát lại” cho Codex để tự động hóa quy trình làm việc

06-18 15:45

Sina Weibo Mở mã nguồn VibeThinker-3B, mô hình 3B tham số khớp hiệu năng suy luận ở tầm Frontier

06-18 06:30

Ủy ban Dịch vụ Tài chính Hàn Quốc triển khai hướng dẫn AI với bảy nguyên tắc vào ngày 22 tháng 6

06-18 06:30

Block ra mắt công cụ AI Builderbot, xử lý 15% các thay đổi mã sản xuất

Phân tích chuyên sâu