Theo tiết lộ về phiếu hệ thống của Anthropic, mô hình Mythos 5 đã giúp các nhà vi sinh tổng quát vượt các chuyên gia trong một bài kiểm tra red team về phòng thủ sinh học kéo dài 16 giờ, với 2 trong số 3 đội tổng quát vượt toàn bộ 3 đội chuyên gia về chất lượng khoa học và tính khả thi. Các chuyên gia ước tính nhiệm vụ này thường sẽ cần từ 40 đến 95 ngày làm việc nếu không có hỗ trợ AI, trung bình 72,5 ngày.
Tuy nhiên, Anthropic cho biết Mythos 5 vẫn còn hạn chế về năng lực nghiên cứu tự chủ. Mô hình thể hiện khả năng suy tưởng mở kém, có xu hướng kết hợp lại các tài liệu hiện có thay vì đề xuất hướng đi mới, và có thể tiếp tục theo đuổi các khung nghiên cứu sai ngay cả sau khi đã phát hiện ra lỗi. Bộ chuẩn đánh giá dự báo khoa học CUSP củng cố các phát hiện này: cho thấy GPT-5.4 đạt 81,9% độ chính xác cho các tác vụ nhận diện cơ chế, nhưng chỉ 45,3% đến 51,9% cho các tác vụ phân loại nhị phân về việc liệu các tiến bộ khoa học có thực sự thành công hay không, gần mức đoán ngẫu nhiên.