De acordo com a divulgação do sistema card da Anthropic, o modelo Mythos 5 permitiu que microbiologistas generalistas superassem especialistas numa experiência de red team de biodefesa com duração de 16 horas, com 2 em 3 equipas generalistas a ultrapassarem todas as 3 equipas de peritos em qualidade científica e viabilidade. Os peritos estimaram que a tarefa normalmente exigiria de 40 a 95 dias úteis sem assistência de IA, com uma média de 72,5 dias.
No entanto, a Anthropic referiu que o Mythos 5 continua limitado em capacidades de investigação autónoma. O modelo mostrou fraca ideação aberta, tendia a recombinar literatura existente em vez de propor abordagens novas, e podia continuar a avançar com frameworks falhados mesmo depois de identificar falhas. O benchmark CUSP de previsão científica corroborou estas conclusões, mostrando que o GPT-5.4 atingiu 81,9% de precisão em tarefas de identificação de mecanismos, mas apenas 45,3% a 51,9% na classificação binária sobre se os avanços científicos teriam realmente sucesso, a valores próximos de acertos aleatórios.