BioMysteryBench: Mythos O especialista em desvendar mitos sem solução 29,6%

2026-04-30 06:05:17

A 29 de abril, a Anthropic publicou, num anúncio oficial de investigação, o BioMysteryBench — um novo referencial de avaliação para capacidades de análise de bioinformática por IA, composto por questões abertas em cenários reais de investigação. Os dados que mais merecem atenção são os seguintes: em questões que nenhum candidato a partir de um painel de especialistas humanos conseguiu resolver, o modelo de topo Mythos da Anthropic conseguiu resolver 29,6%, enquanto o Opus 4,7 resolveu 27,0%.

Conceção da avaliação: duas vertentes — questões resolvíveis e questões não resolvíveis por especialistas

O BioMysteryBench é composto por dois tipos de questões. O primeiro é o das “questões resolvíveis” — tarefas de análise concebidas por investigadores de bioinformática, com respostas padrão para comparação; o segundo é o das “questões não resolvíveis por especialistas” — questões que, após a tentativa de um painel de especialistas humanos, continuam sem que estes consigam encontrar uma resposta credível, sendo usadas para testar se o modelo consegue ultrapassar os limites do conhecimento existente na área.

Na componente das questões resolvíveis, os modelos de várias gerações da Anthropic mostram um gradiente claro de capacidades: o Claude Haiku 4,5 resolveu 36,8%, o Claude Sonnet 4,6 atingiu 71,8% e o mais recente topo de gama, o Claude Mythos, chegou a 82,6%. Este gradiente está, em linhas gerais, alinhado com as diferenças de capacidades que a Anthropic afirma para os seus modelos — Haiku como modelo ligeiro, Sonnet como modelo principal e Mythos como modelo de investigação de topo.

O que é verdadeiramente relevante, porém, está na vertente das questões não resolvíveis por especialistas. Este tipo de questão é assinalado como “impossível” ou “sem consenso” após avaliação por um painel de especialistas em bioinformática; o Mythos conseguiu resolver 29,6% e o Opus 4,7 resolveu 27,0%. Este resultado não é uma prova única de que “o modelo é melhor do que os humanos” — uma formulação mais rigorosa seria: em problemas que os especialistas não conseguem tratar devido a limitações de percurso, tempo ou recursos, a IA consegue propor percursos de solução que podem ser validados; pode não ser a resposta final, mas tem a característica de “um ângulo que os humanos não chegaram a tentar”.

Avanço em paralelo com o Claude for Life Sciences

O BioMysteryBench segue a mesma direção do programa “Claude for Life Sciences”, promovido pela Anthropic desde a segunda metade de 2025. O primeiro tem como alvo aplicações concretas como desenvolvimento de fármacos, genómica e conceção de ensaios clínicos; o segundo mede, através de métodos de avaliação, o progresso das “capacidades de nível de investigação” da IA no domínio das ciências da vida. O sinal combinado é o seguinte: a Anthropic posiciona a biomedicina como uma das principais áreas de aplicação a longo prazo do Claude, competindo com a abordagem da DeepMind AlphaFold através de uma porta de entrada diferente.

Se o número de cerca de 30% de questões não resolvíveis por especialistas que o Mythos consegue resolver conseguir ser reproduzido em validações independentes de terceiros, isso tornar-se-á uma demonstração precoce do valor prático dos modelos de IA em cenários de investigação científica. Os pontos a acompanhar incluem: se o BioMysteryBench vai ser adotado como avaliação-padrão por outras instituições de investigação, o procedimento de validação dos especialistas humanos que conseguem resolver as questões e se o Mythos consegue replicar os resultados de teste em projetos de investigação reais.

Este artigo BioMysteryBench: Myhos resolve questões não resolvíveis por especialistas 29,6% apareceu pela primeira vez em 鏈新聞 ABMedia.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

04-30 02:31

A Casa Branca opõe-se ao plano da Anthropic para alargar o acesso da IA Mythos a mais 70 empresas

04-30 00:06

Anthropic Procura Financiamento Com Valoração Acima de 900B$, Potencialmente Ultrapassando a OpenAI

04-29 10:31

Casa Branca contorna avaliação de risco do Pentágono para implementar o modelo Mythos da Anthropic a 29 de abril

A Anthropic está em negociações para angariar financiamento com uma avaliação superior a 90 mil milhões de dólares, com uma decisão do conselho a poder ocorrer já em maio, no prazo mais rápido.

Market Whisper04-30 03:19

Instituto de Internet da Universidade de Oxford: o treino mais “amigável” faz aumentar a taxa de erros da IA em 7,43 pontos percentuais

Market Whisper04-30 02:47

A Anthropic considera um novo financiamento, com uma avaliação que ultrapassa a OpenAI e se torna a nova startup de IA mais valorizada

ChainNewsAbmedia04-29 23:54

Relatório de investigação da a16z Crypto: A taxa de exploração de vulnerabilidades DeFi por agentes de IA atinge 70%

Market Whisper04-29 05:27

Mídia norte-americana: um projecto de ordem executiva da Casa Branca permite a entrada do modelo Anthropic Mythos no governo

Market Whisper04-29 02:59

Comentar

0/400

Nenhum comentário