O mito dos Mythos 5 permite que PhDs generalistas superem especialistas em Red Team de defesa biológica de 16 horas

De acordo com a divulgação da ficha de sistema da Anthropic, o modelo Mythos 5 permitiu que microbiologistas generalistas superassem especialistas em um exercício de red team de defesa biológica de 16 horas, com 2 de 3 equipes generalistas superando todas as 3 equipes de especialistas em qualidade científica e viabilidade. Os especialistas estimaram que a tarefa normalmente exigiria de 40 a 95 dias úteis sem assistência de IA, com uma média de 72,5 dias.

No entanto, a Anthropic observou que o Mythos 5 ainda tem limitações em capacidades de pesquisa autônoma. O modelo mostrou ideação fraca em aberto, tendia a recombinar literatura existente em vez de propor abordagens novas e podia continuar perseguindo estruturas falhas mesmo depois de identificar defeitos. O benchmark CUSP de previsão científica corroborou essas conclusões, mostrando que o GPT-5.4 alcançou 81,9% de acurácia em tarefas de identificação de mecanismos, mas apenas 45,3% a 51,9% na classificação binária de se avanços científicos realmente teriam sucesso, em níveis próximos a um chute aleatório.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários