De acordo com a Odaily, a OpenAI lançou o LifeSciBench, um novo benchmark de avaliação que reúne 750 tarefas escritas por especialistas, abrangendo 7 fluxos de trabalho de pesquisa científica e 7 domínios de biologia. O benchmark foi desenvolvido por 173 pesquisadores com PhDs e experiência nas indústrias de biotecnologia ou farmacêutica.
Mais de 79% das tarefas exigem raciocínio em múltiplas etapas, com média de 4 etapas de raciocínio por tarefa, além de 1.062 anexos reais de dados científicos, incluindo artigos, gráficos, dados de sequência e arquivos estruturais. O benchmark avalia capacidades complexas de pesquisa, como integração de evidências, desenho experimental, análise de dados, raciocínio científico e comunicação de pesquisa.