A 29 de abril, a Anthropic publicou, num anúncio oficial de investigação, o BioMysteryBench — um novo referencial de avaliação para capacidades de análise de bioinformática por IA, composto por questões abertas em cenários reais de investigação. Os dados que mais merecem atenção são os seguintes: em questões que nenhum candidato a partir de um painel de especialistas humanos conseguiu resolver, o modelo de topo Mythos da Anthropic conseguiu resolver 29,6%, enquanto o Opus 4,7 resolveu 27,0%.
Conceção da avaliação: duas vertentes — questões resolvíveis e questões não resolvíveis por especialistas
O BioMysteryBench é composto por dois tipos de questões. O primeiro é o das “questões resolvíveis” — tarefas de análise concebidas por investigadores de bioinformática, com respostas padrão para comparação; o segundo é o das “questões não resolvíveis por especialistas” — questões que, após a tentativa de um painel de especialistas humanos, continuam sem que estes consigam encontrar uma resposta credível, sendo usadas para testar se o modelo consegue ultrapassar os limites do conhecimento existente na área.
Na componente das questões resolvíveis, os modelos de várias gerações da Anthropic mostram um gradiente claro de capacidades: o Claude Haiku 4,5 resolveu 36,8%, o Claude Sonnet 4,6 atingiu 71,8% e o mais recente topo de gama, o Claude Mythos, chegou a 82,6%. Este gradiente está, em linhas gerais, alinhado com as diferenças de capacidades que a Anthropic afirma para os seus modelos — Haiku como modelo ligeiro, Sonnet como modelo principal e Mythos como modelo de investigação de topo.
O que é verdadeiramente relevante, porém, está na vertente das questões não resolvíveis por especialistas. Este tipo de questão é assinalado como “impossível” ou “sem consenso” após avaliação por um painel de especialistas em bioinformática; o Mythos conseguiu resolver 29,6% e o Opus 4,7 resolveu 27,0%. Este resultado não é uma prova única de que “o modelo é melhor do que os humanos” — uma formulação mais rigorosa seria: em problemas que os especialistas não conseguem tratar devido a limitações de percurso, tempo ou recursos, a IA consegue propor percursos de solução que podem ser validados; pode não ser a resposta final, mas tem a característica de “um ângulo que os humanos não chegaram a tentar”.
Avanço em paralelo com o Claude for Life Sciences
O BioMysteryBench segue a mesma direção do programa “Claude for Life Sciences”, promovido pela Anthropic desde a segunda metade de 2025. O primeiro tem como alvo aplicações concretas como desenvolvimento de fármacos, genómica e conceção de ensaios clínicos; o segundo mede, através de métodos de avaliação, o progresso das “capacidades de nível de investigação” da IA no domínio das ciências da vida. O sinal combinado é o seguinte: a Anthropic posiciona a biomedicina como uma das principais áreas de aplicação a longo prazo do Claude, competindo com a abordagem da DeepMind AlphaFold através de uma porta de entrada diferente.
Se o número de cerca de 30% de questões não resolvíveis por especialistas que o Mythos consegue resolver conseguir ser reproduzido em validações independentes de terceiros, isso tornar-se-á uma demonstração precoce do valor prático dos modelos de IA em cenários de investigação científica. Os pontos a acompanhar incluem: se o BioMysteryBench vai ser adotado como avaliação-padrão por outras instituições de investigação, o procedimento de validação dos especialistas humanos que conseguem resolver as questões e se o Mythos consegue replicar os resultados de teste em projetos de investigação reais.
Este artigo BioMysteryBench: Myhos resolve questões não resolvíveis por especialistas 29,6% apareceu pela primeira vez em 鏈新聞 ABMedia.
Related Articles
A receita do 1.º trimestre da Schneider Electric atinge 9,8 mil milhões de euros, impulsionada em 11,2% pela procura de centros de dados impulsionada por IA
A Protum angaria uma ronda Seed de 2 milhões de dólares para uma plataforma de governação de IA, com vista a um fecho em junho de 2026
A vaga de despedimentos nas empresas poderá levar a um cenário de perdas para trabalhadores e empregadores em simultâneo; o estudo recomenda: criar um imposto sobre a automação com IA
Claude 会 cobrar imposto sobre linguagem? Estudo revela que a tradução de conteúdos em chinês, japonês e coreano consome mais token, quase 3 vezes
O negócio de IA da Microsoft duplica para $370B de ARR; planos $190B para capex em 2026
A DevDay 2026 da OpenAI vai decorrer a 29/09, em São Francisco