OpenAI lança o LifeSciBench com 750 tarefas de especialistas para avaliar IA em fluxos de trabalho científicos reais

De acordo com a Odaily, a OpenAI lançou o LifeSciBench, um novo benchmark de avaliação que reúne 750 tarefas escritas por especialistas, abrangendo 7 fluxos de trabalho de pesquisa científica e 7 domínios de biologia. O benchmark foi desenvolvido por 173 pesquisadores com PhDs e experiência nas indústrias de biotecnologia ou farmacêutica.

Mais de 79% das tarefas exigem raciocínio em múltiplas etapas, com média de 4 etapas de raciocínio por tarefa, além de 1.062 anexos reais de dados científicos, incluindo artigos, gráficos, dados de sequência e arquivos estruturais. O benchmark avalia capacidades complexas de pesquisa, como integração de evidências, desenho experimental, análise de dados, raciocínio científico e comunicação de pesquisa.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários