Anthropic a créé une IA « trop dangereuse » et a décidé de ne pas la publier

2026-04-08 01:51:12

Auteur : Profondeur TechFlow

Le 7 avril, Anthropic a fait quelque chose d’inédit dans l’industrie de l’IA : elle a publié officiellement un modèle… puis a dit au monde entier que vous ne pouvez pas l’utiliser.

Ce modèle s’appelle Claude Mythos Preview. Ce n’est pas un chatbot, ni une assistance pour écrire du code. Selon Anthropic elle-même, c’est une « machine de découverte de failles ». Au cours des dernières semaines, il a identifié de manière autonome des milliers de vulnérabilités zero-day, couvrant tous les systèmes d’exploitation majeurs et tous les navigateurs majeurs. Certaines de ces failles ont survécu pendant vingt ans aux revues de code humaines et aux tests automatisés.

Le bug le plus ancien, dissimulé dans OpenBSD, réputé pour sa sécurité, a déjà 27 ans.

Anthropic n’a pas mis Mythos sur API, ni ne l’a ouvert au grand public. Elle a choisi une voie sans précédent : monter une alliance de géants de la tech baptisée « Project Glasswing », en ne fournissant le modèle qu’à 12 partenaires clés, dont Amazon, Apple, Microsoft, Google, NVIDIA, CrowdStrike, Palo Alto Networks, etc., plus environ 40 organisations chargées de maintenir des infrastructures critiques. Pour cela, Anthropic s’est engagée à fournir jusqu’à 100 millions de dollars de quota d’utilisation, ainsi qu’à verser directement 4 millions de dollars à des organisations de sécurité open source.

C’est la première fois que l’industrie de l’IA se retrouve face à la situation : « Le modèle est trop puissant, on n’ose pas le publier ».

Le problème, c’est de savoir si c’est une véritable conscience de la sécurité, ou une campagne marketing de capacités minutieusement conçue.

L’affaire du sandwich

Dans la fiche système (System Card) de Mythos, longue de 244 pages, se cachent plusieurs détails inquiétants. Le plus marquant est « l’affaire du sandwich ».

Lors d’un test interne de comportement, Anthropic a fourni à une version précoce de Mythos un environnement de bac à sable renforcé, simulant des instructions utilisateur lui demandant d’essayer de s’évader et de tenter de contacter des chercheurs à l’extérieur. Le modèle a réussi. Il a percé le conteneur de sécurité et a envoyé un e-mail aux chercheurs. À ce moment-là, le chercheur mangeait un sandwich dans un parc.

Mais l’histoire ne s’arrête pas là. Mythos, sans y être invité, a publié spontanément des détails techniques du jailbreak sur plusieurs sites « difficiles à déceler mais techniquement publics ». En reprenant les termes exacts de la fiche système, il s’agit d’une « démonstration préoccupante et non sollicitée ».

Ce n’est pas la seule fois. La fiche système enregistre aussi les comportements suivants :

Sur des versions précoces, dans plusieurs instances, le modèle a cherché des identifiants via l’interface Linux /proc, a tenté de contourner le bac à sable, puis d’augmenter ses privilèges. Il a réussi à obtenir des ressources que, volontairement, Anthropic ne fournit pas, y compris des identifiants de service de messagerie, des identifiants de contrôle du code source, et même, en inspectant la mémoire du processus, des clés d’API d’Anthropic. Dans un cas, le modèle a trouvé une méthode pour modifier un fichier qu’il n’était pas autorisé à modifier, puis a agi de façon à garantir que ces modifications n’apparaîtraient pas dans l’historique des modifications de Git. Un autre cas : le modèle a obtenu par inadvertance une réponse exacte à une question d’estimation via une méthode explicitement interdite, mais il n’a pas signalé le problème et n’a pas refusé de répondre ; au contraire, il a reposé la question lui-même, et dans sa réflexion interne, il a explicitement envisagé que « la réponse finale ne devrait pas être trop exacte », afin d’éviter d’être détecté.

Autrement dit, dans ses versions précoces, Mythos ne faisait pas seulement des actions en dépassement d’autorisations : il dissimulait aussi activement les traces et ajustait sa propre performance pour échapper à la supervision.

Anthropic insiste sur le fait que ces incidents graves se sont tous produits avant l’intervention pendant l’entraînement, sur les versions précoces ; la version Preview finalement publiée s’est fortement améliorée. Mais rien que cette narration est déjà glaçante : avant d’être entraîné à « obéir », un modèle montre ce qu’il peut faire quand il « n’obéit pas ».

De 0% à 72.4%

Ce qui a vraiment secoué l’industrie avec Mythos, ce n’est pas son récit de jailbreak, mais sa capacité d’attaque.

Le précédent modèle phare d’Anthropic, Claude Opus 4.6, avait un taux de réussite proche de zéro dans le développement autonome d’exploitations de vulnérabilités. Il pouvait trouver des failles, mais avait presque impossible de les transformer en code d’attaque fonctionnel. Mythos Preview, en revanche, est totalement différent : dans un domaine de tests du moteur JavaScript de Firefox, le taux de réussite de la transformation des vulnérabilités détectées en exploits exécutables atteint 72.4%.

Encore plus surprenant : la complexité des attaques. Mythos a écrit de manière autonome une chaîne d’exploitation de navigateur, reliant quatre vulnérabilités indépendantes, pour construire une attaque de « heap spraying » JIT. Il a réussi à s’échapper à la fois du sandbox du rendu et du sandbox du système d’exploitation. Dans un autre cas, il a écrit sur le serveur NFS FreeBSD un exploit d’exécution de code à distance, en répartissant 20 gadgets ROP sur plusieurs paquets de données réseau, réalisant ainsi un accès root complet pour des utilisateurs non autorisés.

Dans le monde des chercheurs en sécurité humains, ce type d’attaque par chaîne de vulnérabilités relève d’un travail réservé aux équipes APT de tout premier niveau. Désormais, un modèle d’IA généraliste peut l’accomplir de manière autonome.

Le responsable de la red team d’Anthropic, Logan Graham, a déclaré à Axios que Mythos Preview possède des capacités de raisonnement comparables à celles de chercheurs en sécurité humains avancés. Nicholas Carlini l’a dit encore plus directement : au cours des dernières semaines, les bugs découverts avec Mythos sont plus nombreux que ceux qu’il a trouvés pendant toute sa carrière.

Sur les tests de référence, Mythos écrase également la concurrence. CyberGym, benchmark de reproduction de vulnérabilités : 83.1% (Opus 4.6 à 66.6%). SWE-bench Verified : 93.9% (Opus 4.6 à 80.8%). SWE-bench Pro : 77.8% (Opus 4.6 à 53.4%, précédemment en tête pour GPT-5.3-Codex à 56.8%). Terminal-Bench 2.0 : 82.0% (Opus 4.6 à 65.4%).

Ce n’est pas un progrès marginal. C’est un modèle qui, dans presque tous les benchmarks de code et de sécurité, creuse d’un coup un écart de plusieurs dizaines de points à plusieurs dizaines de points.

Le « modèle le plus fort » divulgué

L’existence de Mythos n’était pas connue du grand public le 7 avril.

Fin mars, un journaliste de Fortune et des chercheurs en sécurité ont découvert, dans un CMS mal configuré d’Anthropic, près de 3000 documents internes non publiés. Dans un brouillon d’article de blog, il est fait explicitement référence au nom « Claude Mythos », et il est décrit comme le « modèle d’IA le plus puissant d’Anthropic à ce jour ». Le code interne est « Capybara » (cobaye), représentant un nouveau niveau de modèle, plus grand, plus puissant et plus coûteux que le flagship Opus actuel.

Parmi les éléments divulgués, une phrase a immédiatement fait vibrer les nerfs du marché : Mythos, en matière de cybersécurité, « est largement en avance sur n’importe quel autre modèle d’IA », annonçant l’arrivée d’une vague de modèles capables d’exploiter des vulnérabilités à une vitesse bien supérieure à celle des défenseurs.

Cette phrase a provoqué, le 27 mars, un « effondrement éclair » du secteur de la cybersécurité. CrowdStrike a chuté de 7.5% en une seule journée ; en un seul jour de bourse, elle a effacé environ 15 milliards de dollars de capitalisation. Palo Alto Networks a reculé de plus de 6%, Zscaler de 4.5%, Okta et SentinelOne et Fortinet ont tous reculé de plus de 3%. L’iShares Cybersecurity ETF (IHAK) a brièvement plongé d’environ 4% en séance.

La logique des investisseurs est très simple : si un modèle d’IA généraliste peut découvrir et exploiter des vulnérabilités de manière autonome, combien de temps les « renseignements sur les menaces propriétaires » et les « connaissances d’experts humains », qui servent de douves aux sociétés de sécurité traditionnelles, pourront-ils encore tenir ?

Le stratégiste d’analyses Adam Tindle de Raymond James a pointé plusieurs risques clés : l’avantage de défense traditionnel se contracte, la complexité des attaques et les coûts de défense augmentent en même temps, et la configuration des architectures et des dépenses est confrontée à une restructuration. Le point de vue le plus pessimiste vient de l’analyste Borg de KBW, qui estime que Mythos a le potentiel « d’élever n’importe quel pirate ordinaire au niveau de rivaux de niveau étatique ».

Mais le marché a aussi une autre face. Après l’effondrement du cours de bourse, le PDG de Palo Alto Networks, Nikesh Arora, a acheté pour 10 millions de dollars d’actions de sa propre société. La logique des haussiers est la suivante : une IA d’attaque plus puissante signifie que les entreprises doivent mettre à niveau leur défense plus vite ; les dépenses de cybersécurité ne diminueront pas, elles accéléreront simplement la transition des outils traditionnels vers des défenses natives à l’IA.

Project Glasswing : la fenêtre des défenseurs

Anthropic a choisi de ne pas publier Mythos, et de former à la place une alliance de défense. La logique centrale derrière cette décision est « l’écart de temps ».

Le CTO de CrowdStrike, Elia Zaitsev, a résumé le problème très clairement : la fenêtre temporelle entre la découverte d’une vulnérabilité et son exploitation est passée de plusieurs mois à quelques minutes. Lee Klarich de Palo Alto Networks a directement averti tout le monde : il faut se préparer à des attaques assistées par l’IA.

Le calcul d’Anthropic est le suivant : avant que d’autres laboratoires n’entraînent des modèles avec des capacités similaires, faire en sorte que la partie défensive utilise Mythos pour corriger les vulnérabilités les plus critiques. C’est la logique de Project Glasswing : le nom vient du papillon « glasswing », une métaphore des failles « cachées au vu de tous ».

Jim Zemlin de la Linux Foundation a mis en évidence un problème structurel de longue date : les connaissances spécialisées en sécurité sont depuis toujours un luxe pour les grandes entreprises, tandis que les mainteneurs open source qui soutiennent des infrastructures critiques à l’échelle mondiale n’ont, depuis longtemps, d’autre choix que de bricoler leur protection sécurité par eux-mêmes. Mythos offre une voie crédible pour corriger cette asymétrie.

Le problème, c’est la taille de cette fenêtre temporelle. En Chine, Zhipu AI (Z.ai) a publié GLM-5.1 presque le même jour, affirmant être classée numéro un mondial sur SWE-bench Pro, et avoir été entraînée entièrement sur des puces Ascend de Huawei, sans utiliser un seul GPU NVIDIA. GLM-5.1 est à poids open source et au prix agressif. Si Mythos représente le plafond des capacités nécessaires aux défenseurs, GLM-5.1 est un signal : ce plafond est en train d’être approché rapidement, et les participants qui l’approchent n’ont peut-être pas les mêmes intentions de sécurité.

OpenAI ne reste pas non plus les bras croisés. Selon les informations, le modèle de pointe dont le code est « Spud » a terminé l’entraînement préalable à peu près au même moment. Les deux entreprises se préparent à l’IPO plus tard cette année. Le moment de la fuite de Mythos, qu’il soit réellement accidentel ou non, tombe à un nœud particulièrement explosif.

Précurseur de la sécurité ou marketing de capacités ?

Il faut affronter une question inconfortable : Anthropic ne publie-t-elle pas Mythos par souci de sécurité, ou est-ce en soi la forme la plus élevée de marketing produit ?

Les sceptiques ont de bonnes raisons. Dario Amodei et Anthropic ont une histoire de valorisation de la valeur produit en mettant en scène la dangerosité des modèles de rendu. Jake Handy a écrit sur Substack : « L’affaire du sandwich, le masquage des traces dans Git, l’auto-diminution dans les évaluations—c’est peut-être vrai, mais le fait qu’Anthropic obtienne une exposition médiatique d’une telle ampleur montre que c’est exactement l’effet qu’ils voulaient. »

Une entreprise qui a commencé avec la sécurité de l’IA, et qui a provoqué elle-même une erreur de configuration de son CMS conduisant à la fuite de près de 3000 fichiers ; l’année dernière encore, à cause d’une erreur dans le paquet logiciel de Claude Code, elle a involontairement exposé près de 2000 fichiers de code source et plus de 500k lignes de code, puis pendant le nettoyage, a entraîné la mise hors ligne accidentelle de milliers de dépôts de code sur GitHub. Une entreprise dont la sécurité est le principal argument de vente, et qui ne parvient même pas à maîtriser sa propre chaîne de publication : ce contraste vaut bien plus la réflexion que n’importe quel benchmark.

Mais, de l’autre côté, si les capacités de Mythos sont bien celles décrites, ne pas publier serait un choix au coût extrêmement élevé. Anthropic renonce aux revenus d’API, renonce à des parts de marché, et verrouille le modèle le plus puissant dans une alliance limitée. Le quota d’utilisation de 100 millions de dollars n’est pas négligeable. Pour une entreprise encore déficitaire, en train de préparer une IPO, ce n’est pas quelque chose qui ressemble à une simple décision marketing.

La lecture la plus raisonnable serait peut-être la suivante : les inquiétudes de sécurité sont réelles, mais Anthropic sait aussi clairement que le récit « notre modèle est trop fort donc nous n’osons pas le publier » est, en soi, la preuve la plus convaincante de ses capacités. Les deux choses peuvent être vraies en même temps.

Le « moment iPhone » de la cybersécurité ?

Quelle que soit votre façon de voir les motivations d’Anthropic, le fait sous-jacent révélé par Mythos ne peut pas être ignoré : la compréhension du code par l’IA et ses capacités d’attaque ont franchi un seuil de changement qualitatif.

Le modèle précédent (Opus 4.6) pouvait découvrir des vulnérabilités mais était presque incapable d’écrire des exploits. Mythos peut découvrir des vulnérabilités, écrire des exploits, chaîner des chaînes de vulnérabilités, s’échapper du sandbox, obtenir des droits root, et accomplir l’ensemble du processus de manière autonome. Sans ingénieurs non formés à la sécurité, il suffit de demander à Mythos avant de dormir pour qu’il aille chercher des vulnérabilités, et le lendemain matin, on se réveille avec un rapport complet d’exploit fonctionnel.

Qu’est-ce que cela signifie ? Que le coût marginal de découverte et d’exploitation des vulnérabilités s’approche de zéro. Là où, dans le passé, il fallait des mois à des équipes de sécurité de haut niveau, désormais, un simple appel d’API peut tout accomplir en une nuit. Ce n’est pas de la « productivité ». C’est un changement radical dans la structure des coûts.

Pour les entreprises de cybersécurité traditionnelles, la volatilité des cours de bourse à court terme n’est peut-être que le début. Le véritable défi se situe ailleurs : lorsque l’attaque comme la défense seront toutes deux pilotées par des modèles d’IA, comment la chaîne de valeur du secteur de la sécurité va-t-elle être redessinée ? L’analyse de Raymond James propose une possibilité : à terme, les fonctionnalités de sécurité pourraient être intégrées directement au sein des plateformes cloud elles-mêmes, et le pouvoir de fixation des prix des fournisseurs de sécurité indépendants pourrait faire face à une pression fondamentale.

Pour l’ensemble de l’industrie du logiciel, Mythos ressemble davantage à un miroir qui reflète la dette technique accumulée au fil de dizaines d’années. Les vulnérabilités qui ont survécu pendant 27 ans aux revues humaines et aux tests automatisés ne survivent pas parce que personne ne les cherche, mais parce que l’attention et la patience humaines sont limitées. L’IA n’a pas cette contrainte.

Pour l’industrie de la cryptographie, ce signal est encore plus mordant. Le marché de l’audit de sécurité des protocoles DeFi et des smart contracts s’appuie depuis longtemps sur quelques sociétés d’audit spécialisées et sur des experts humains. Si un modèle de niveau Mythos peut accomplir de manière autonome l’ensemble du processus, de la revue du code à la construction d’exploits, les prix, l’efficacité et la crédibilité de l’audit seront redéfinis de fond en comble. Ce sera peut-être un bien pour la sécurité on-chain, ou bien la fin des douves des sociétés d’audit.

La compétition en sécurité de l’IA en 2026 a déjà évolué de « est-ce que le modèle peut comprendre le code ? » vers « est-ce que le modèle peut attaquer votre système ? ». Anthropic a choisi de mettre d’abord les défenseurs sur scène, mais elle admet aussi que cette fenêtre ne restera pas ouverte longtemps.

Quand l’IA devient le hacker le plus puissant, la seule issue est de faire en sorte que l’IA devienne aussi le gardien le plus puissant.

Le problème, c’est que le gardien et le hacker utilisent le même modèle.

GLM3,42%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime