BioMysteryBench: Mythos O especialista em desvendar mitos sem solução 29,6%

A 29 de abril, a Anthropic publicou, num anúncio oficial de investigação, o BioMysteryBench — um novo referencial de avaliação para capacidades de análise de bioinformática por IA, composto por questões abertas em cenários reais de investigação. Os dados que mais merecem atenção são os seguintes: em questões que nenhum candidato a partir de um painel de especialistas humanos conseguiu resolver, o modelo de topo Mythos da Anthropic conseguiu resolver 29,6%, enquanto o Opus 4,7 resolveu 27,0%.

Conceção da avaliação: duas vertentes — questões resolvíveis e questões não resolvíveis por especialistas

O BioMysteryBench é composto por dois tipos de questões. O primeiro é o das “questões resolvíveis” — tarefas de análise concebidas por investigadores de bioinformática, com respostas padrão para comparação; o segundo é o das “questões não resolvíveis por especialistas” — questões que, após a tentativa de um painel de especialistas humanos, continuam sem que estes consigam encontrar uma resposta credível, sendo usadas para testar se o modelo consegue ultrapassar os limites do conhecimento existente na área.

Na componente das questões resolvíveis, os modelos de várias gerações da Anthropic mostram um gradiente claro de capacidades: o Claude Haiku 4,5 resolveu 36,8%, o Claude Sonnet 4,6 atingiu 71,8% e o mais recente topo de gama, o Claude Mythos, chegou a 82,6%. Este gradiente está, em linhas gerais, alinhado com as diferenças de capacidades que a Anthropic afirma para os seus modelos — Haiku como modelo ligeiro, Sonnet como modelo principal e Mythos como modelo de investigação de topo.

O que é verdadeiramente relevante, porém, está na vertente das questões não resolvíveis por especialistas. Este tipo de questão é assinalado como “impossível” ou “sem consenso” após avaliação por um painel de especialistas em bioinformática; o Mythos conseguiu resolver 29,6% e o Opus 4,7 resolveu 27,0%. Este resultado não é uma prova única de que “o modelo é melhor do que os humanos” — uma formulação mais rigorosa seria: em problemas que os especialistas não conseguem tratar devido a limitações de percurso, tempo ou recursos, a IA consegue propor percursos de solução que podem ser validados; pode não ser a resposta final, mas tem a característica de “um ângulo que os humanos não chegaram a tentar”.

Avanço em paralelo com o Claude for Life Sciences

O BioMysteryBench segue a mesma direção do programa “Claude for Life Sciences”, promovido pela Anthropic desde a segunda metade de 2025. O primeiro tem como alvo aplicações concretas como desenvolvimento de fármacos, genómica e conceção de ensaios clínicos; o segundo mede, através de métodos de avaliação, o progresso das “capacidades de nível de investigação” da IA no domínio das ciências da vida. O sinal combinado é o seguinte: a Anthropic posiciona a biomedicina como uma das principais áreas de aplicação a longo prazo do Claude, competindo com a abordagem da DeepMind AlphaFold através de uma porta de entrada diferente.

Se o número de cerca de 30% de questões não resolvíveis por especialistas que o Mythos consegue resolver conseguir ser reproduzido em validações independentes de terceiros, isso tornar-se-á uma demonstração precoce do valor prático dos modelos de IA em cenários de investigação científica. Os pontos a acompanhar incluem: se o BioMysteryBench vai ser adotado como avaliação-padrão por outras instituições de investigação, o procedimento de validação dos especialistas humanos que conseguem resolver as questões e se o Mythos consegue replicar os resultados de teste em projetos de investigação reais.

Este artigo BioMysteryBench: Myhos resolve questões não resolvíveis por especialistas 29,6% apareceu pela primeira vez em 鏈新聞 ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A receita do 1.º trimestre da Schneider Electric atinge 9,8 mil milhões de euros, impulsionada em 11,2% pela procura de centros de dados impulsionada por IA

De acordo com a Reuters, a Schneider Electric reportou receitas no primeiro trimestre de 9,8 mil milhões de euros (11,4 mil milhões de dólares) a 30 de abril, com o crescimento orgânico a subir para 11,2% devido à procura de data centers impulsionada pela IA. O fornecedor francês de equipamento de energia e refrigeração disse que o resultado ficou ligeiramente acima das estimativas de consenso e

GateNews4m atrás

A Protum angaria uma ronda Seed de 2 milhões de dólares para uma plataforma de governação de IA, com vista a um fecho em junho de 2026

De acordo com o TechCrunch Startup Spotlight, a Protum, uma startup de governação de IA, está a angariar uma ronda de seed de 2 milhões de dólares, com o objetivo de a fechar até junho de 2026. Fundada por Sandeep J., que traz 25 anos de experiência na transformação empresarial, a Protum fornece uma plataforma concebida para dar às empresas contínua

GateNews34m atrás

A vaga de despedimentos nas empresas poderá levar a um cenário de perdas para trabalhadores e empregadores em simultâneo; o estudo recomenda: criar um imposto sobre a automação com IA

Os estudos apontam uma externalidade da necessidade de despedimentos em massa atribuídos à IA: os custos dos despedimentos são suportados apenas pelas empresas, mas a perda do poder de compra é suportada pelo mercado no seu conjunto; quanto mais se despede, mais a procura se contrai, e ambos perdem. Propõe-se a cobrança de um imposto sobre a automatização com IA, para internalizar os custos externos, e o uso do produto da tributação para financiar a requalificação, com o objetivo de recuperar a procura e estabilizar a economia.

ChainNewsAbmedia38m atrás

Claude 会 cobrar imposto sobre linguagem? Estudo revela que a tradução de conteúdos em chinês, japonês e coreano consome mais token, quase 3 vezes

O investigador Komatsuzaki apontou no X que os tokenizadores dos LLMs mais comuns têm um imposto linguístico para as línguas não inglesas. Ao traduzir o teste em 《The Bitter Lesson》, o Claude registou aumentos de tokens no hindi, árabe, russo e chinês de cerca de 3,24×, 2,86×, 2,04× e 1,71×, respetivamente, valores claramente superiores aos da OpenAI. Os modelos nativos da China são mais amigáveis com o chinês, sugerindo que os dados de treino tendenciam para o inglês, criando desigualdades de custos que se tornaram um entrave à popularização.

ChainNewsAbmedia41m atrás

O negócio de IA da Microsoft duplica para $370B de ARR; planos $190B para capex em 2026

Em 29 de abril, a Microsoft comunicou os resultados fiscais do terceiro trimestre de 2026 para o período encerrado em 31 de março, superando as expectativas do mercado. A receita do 3.º trimestre atingiu 82,886 mil milhões de dólares, acima em 18% face ao ano anterior e acima dos 81,4 mil milhões de dólares esperados; o lucro líquido GAAP cresceu 23% para 31,778 mil milhões de dólares; os ganhos diluídos não-GAAP por

GateNews54m atrás

A DevDay 2026 da OpenAI vai decorrer a 29/09, em São Francisco

Anúncio oficial da OpenAI de 29 de abril: a conferência anual DevDay 2026 para programadores, do nível mais elevado, terá lugar a 29 de setembro em São Francisco, regressando ao formato de conferência presencial após vários anos. Em simultâneo, foi também divulgada uma iniciativa de submissão: os programadores usam o GPT-5.5 e o Image Gen para criar obras e apresentá-las, sendo que, a cada semana, o Codex seleciona 2-3 submissões criativas entre as entradas, que recebem bilhetes gratuitos para o DevDay (incluindo despesas de passagem interurbana e alojamento). Tema da conferência: ecossistema de programadores centrado no GPT-5.5 + Image Gen A base de aplicações central desta edição do DevDay está claramente alinhada com o GPT-5.5. O GPT-5.5 entrou em funcionamento a 23 de abril e, a 24, foi disponibilizada de forma completa a API; juntamente com o GPT-5.4 no fim de abril

ChainNewsAbmedia1h atrás
Comentar
0/400
Nenhum comentário