Согласно раскрытию карточки системы Anthropic, модель Mythos 5 позволила универсальным микробиологам обойти специалистов в 16-часовом учении red team по биозащите: 2 из 3 команд универсалов превзошли все 3 команды экспертов по научному качеству и реализуемости. Эксперты оценили, что без помощи ИИ выполнение задачи обычно заняло бы от 40 до 95 рабочих дней, в среднем — 72,5 дня.
Однако Anthropic отметил, что Mythos 5 по-прежнему ограничен в возможностях автономных исследований. Модель демонстрировала слабое открытое генерирование идей, чаще переформировывала существующую литературу вместо того, чтобы предлагать новые подходы, и могла продолжать следовать ошибочным рамкам даже после выявления недостатков. Бенчмарк CUSP по научному прогнозированию подтвердил эти выводы: GPT-5.4 достиг 81,9% точности в задачах на идентификацию механизмов, но лишь 45,3%–51,9% в бинарной классификации того, действительно ли научные достижения будут успешными — на уровне, близком к случайным догадкам.