De acuerdo con Odaily, OpenAI lanzó LifeSciBench, un nuevo benchmark de evaluación que incluye 750 tareas escritas por expertos, abarcando 7 flujos de trabajo de investigación científica y 7 dominios de biología. El benchmark fue desarrollado por 173 investigadores con doctorado y experiencia en industrias de biotecnología o farmacéutica.
Más del 79% de las tareas requieren razonamiento en múltiples pasos, con un promedio de 4 pasos de razonamiento por tarea, e incluye 1.062 adjuntos de datos científicos reales, como artículos, gráficos, datos de secuencia y archivos estructurales. El benchmark evalúa capacidades complejas de investigación, como la integración de evidencia, el diseño experimental, el análisis de datos, el razonamiento científico y la comunicación de investigaciones.