Rapport d’Anthropic : le taux de victoire des décisions de l’IA passe à 64 %, optimisation du code 52 fois

Mythos Preview模型優化

Anthropic a publié le 4 juin un rapport révélant que son modèle Mythos Preview, lors de tests visant à aider à la prise de décisions pour la recherche en IA, a pris des décisions supérieures à celles des chercheurs humains dans 64% des cas, tandis que, pour des tests similaires en 2024, le taux de victoire n’était que de 22%. Lors de tests standard visant à optimiser le code de l’entraînement de petits modèles d’IA, Mythos Preview atteint une amélioration de la vitesse de 52 fois.

Méthode et données du test de décision de recherche

La conception de test rendue publique par Anthropic : l’équipe montre à Claude des journaux de conversations où les chercheurs humains s’apprêtent à porter un jugement erroné sur la direction de la recherche, puis lui demande « que faire ensuite ». Dans 64% des cas, Mythos Preview fournit des réponses meilleures que celles des chercheurs humains ; en 2024, la victoire pour des tests similaires était de 22%.

Dans son rapport, Anthropic explique que ce résultat « suggère que l’IA commence à avoir la capacité de guider des recherches de haut niveau », tout en indiquant qu’il n’est pas encore possible de confirmer si Claude dispose d’une capacité globale à choisir de manière autonome « les bonnes questions de recherche ».

Données d’efficacité du code mentionnées dans le rapport d’Anthropic

Les indicateurs liés à l’efficacité du code d’Anthropic :

Volume trimestriel de livraisons de code des ingénieurs internes : 8 fois le niveau moyen sur 2021-2025

Taux de réussite des problèmes de code en accès ouvert : +50 points de pourcentage en 6 mois, jusqu’à 76%

Vitesse d’optimisation du code d’entraînement : Mythos Preview atteint une amélioration de 52 fois

Références de comparaison : Claude Opus 4 (mai 2024) environ 3 fois en moyenne ; des ingénieurs humains chevronnés mettent généralement de 4 à 8 heures pour réaliser environ 4 fois

Le rapport d’Anthropic indique que certains ingénieurs internes estiment que la qualité du code de Claude se rapproche du niveau humain.

Anthropic Research : confirmation de sa création, impact potentiel sur le RSI

Anthropic annonce qu’il va collaborer avec des parties prenantes externes pour créer « Anthropic Institute » (Anthropic Research), afin d’étudier les impacts profonds des systèmes d’IA puissants.

Dans son rapport, Anthropic indique que l’accélération du développement de l’IA peut apporter des effets positifs pour les domaines médical, technologique et économique, mais aussi aggraver les difficultés liées à l’alignement (Alignment) de l’IA, et entraîner un risque de « perte de contrôle (Loss of control) ». Anthropic qualifie cet impact de « nécessitant une attention encore plus élevée ».

Questions fréquentes

Quelle est la conception exacte du test du taux de victoire de Mythos Preview ?

Anthropic montre à Claude des journaux de conversations où les chercheurs sont sur le point de s’engager dans une mauvaise direction de recherche, puis lui demande « que faire ensuite », afin de tester les capacités de jugement en recherche de l’IA. Dans 64% des cas, Mythos Preview fournit des réponses meilleures que celles des chercheurs humains ; par rapport à un taux de victoire de 22% pour des tests similaires en 2024, cela représente une croissance explosive en deux ans.

Qu’est-ce que le « RSI » mentionné dans le rapport d’Anthropic ?

L’auto-amélioration récursive (Recursive Self-Improvement) désigne la capacité d’un système d’IA à développer de manière autonome une prochaine génération d’IA plus puissante que lui-même. Dans son rapport du 4 juin 2026, Anthropic indique que cette progression avance à une « vitesse au-delà des attentes », tout en reconnaissant qu’il n’est pas encore possible de confirmer si Claude dispose d’une capacité globale à choisir de manière autonome « les bonnes questions de recherche ».

Quel est le positionnement et les objectifs d’Anthropic Research ?

Anthropic annonce qu’il va créer Anthropic Institute en collaboration avec des parties prenantes externes, dédié à l’étude des impacts profonds des systèmes d’IA puissants. Anthropic indique que l’objectif de la création est de s’assurer que l’humain pourra faire des choix prudents pour l’avenir des technologies d’IA ; les domaines de recherche et le calendrier précis n’ont pas encore été entièrement divulgués.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire