Claude Mythos - IA et hacking : faut-il avoir peur des modèles autonomes ?

Fin mars 2026, une simple erreur de configuration a suffi à exposer l'un des secrets les mieux gardés d'Anthropic : un modèle d'IA baptisé "Capybara" en interne, renommé depuis Claude Mythos, dont les capacités en cybersécurité ont sidéré jusqu'à ses propres créateurs. Si puissant qu'Anthropic a pris la décision inédite de ne jamais le rendre public. Voici pourquoi cette affaire change profondément notre façon d'envisager les risques des modèles autonomes.

Claude Mythos : quand une fuite révèle un modèle d'IA hors catégorie

Une erreur de configuration à l'origine du scandale

Tout commence non pas par une cyberattaque sophistiquée, mais par une banale erreur humaine. Fin mars 2026, le blog interne d'Anthropic est accidentellement rendu accessible à des utilisateurs non autorisés à cause d'une mauvaise configuration des droits d'accès. C'est dans ce contexte qu'Alexandre Pauwels, chercheur à l'Université de Cambridge, et Roy Paz, de la société LayerX Security, tombent sur des documents décrivant un modèle d'IA qualifié dans ses propres notes internes de "danger massif entre de mauvaises mains".

L'ironie de la situation n'a pas échappé aux observateurs : la société qui développe l'un des modèles les plus redoutables en matière de détection de vulnérabilités a elle-même été victime d'une fuite due à une faille de configuration basique. C'est ce que Le Figaro a rapporté dès le 28 mars 2026, soulignant que la découverte résultait d'une erreur de process et non d'une attaque externe.

De "Capybara" à "Mythos" : la chronologie d'une révélation non planifiée

Lors de la fuite, le projet est encore désigné sous le nom de code "Capybara". Ce n'est que le 7 avril 2026 qu'Anthropic prend les devants et officialise l'existence du modèle sous son nom définitif : Claude Mythos Preview. La communication est soigneusement encadrée et s'accompagne de l'annonce du Project Glasswing, l'initiative de cybersécurité destinée à encadrer l'usage du modèle. En dix jours, Anthropic est passé d'une fuite embarrassante à une annonce structurée autour d'une gouvernance collective - une transformation narrative remarquable.

Des performances qui redéfinissent les standards de la cybersécurité IA

CyberGym, Cybench, SWE-bench : que disent les benchmarks ?

Les chiffres publiés par Anthropic et relayés par le Blog du Modérateur sont proprement vertigineux. Claude Mythos Preview affiche un score de 83,1 % sur CyberGym, le benchmark de référence pour évaluer les capacités offensives et défensives d'un modèle en cybersécurité. Sur SWE-bench Verified, qui mesure la capacité à corriger des bugs dans de vrais dépôts logiciels, le modèle atteint 93,9 % - un niveau inégalé par n'importe quel autre modèle disponible à ce jour.

Mais le chiffre le plus symbolique reste le 100 % sur Cybench, le benchmark dédié aux Capture The Flag (CTF), ces exercices de hacking éthique utilisés pour évaluer les compétences offensives. Un score parfait qui a poussé Anthropic à déclarer ce benchmark officiellement obsolète : il ne permet plus de différencier les modèles puisque Claude Mythos le résout entièrement. C'est une déclaration forte - et inédite dans l'histoire de l'évaluation des IA.

Un modèle généraliste, pas un outil cyber : pourquoi c'est plus inquiétant

Ce qui rend Claude Mythos particulièrement troublant, c'est précisément qu'il n'a pas été conçu pour la cybersécurité. Ses capacités dans ce domaine sont un effet secondaire de progrès généraux réalisés en raisonnement, en codage agentique et en autonomie décisionnelle. En d'autres termes, Anthropic n'a pas cherché à créer un outil de hacking : il a créé un modèle plus intelligent, et ce modèle s'est révélé être un hacker exceptionnel.

Cette distinction est fondamentale d'un point de vue régulatoire. Si l'on pouvait théoriquement interdire le développement de modèles spécialisés en cyberattaque, il est autrement plus difficile de freiner les progrès généraux en intelligence artificielle. Les capacités offensives deviennent une propriété émergente des modèles frontier, indépendamment de l'intention de leurs concepteurs.

Des milliers de vulnérabilités détectées en quelques semaines

Durant la phase de tests internes, Claude Mythos a identifié des milliers de vulnérabilités critiques dans les principaux systèmes d'exploitation et navigateurs web. Des failles qui, selon les informations publiées, auraient nécessité des mois de travail à des équipes humaines spécialisées. Ce qui prenait des semaines ou des mois se réalise désormais en quelques minutes ou quelques heures - une compression temporelle qui change radicalement l'équilibre entre attaquants et défenseurs dans le cyberespace.

Faut-il avoir peur des modèles autonomes ? Le cas Mythos comme signal d'alarme

L'IA offensive : un "effet secondaire" incontrôlable ?

La question n'est plus théorique. Avec Claude Mythos, nous avons la première démonstration publique et documentée qu'un modèle d'IA à usage général peut atteindre un niveau d'expertise cyber surpassant les meilleurs spécialistes humains - sans que cela ait été planifié. Si Anthropic, avec toutes ses ressources en matière de sécurité et d'alignement, n'a pas anticipé l'ampleur de ces capacités, que dire des laboratoires moins bien dotés ou moins scrupuleux ?

C'est le coeur du problème : les capacités offensives des modèles autonomes avancés ne sont pas un choix de conception, mais une conséquence presque mécanique de l'amélioration du raisonnement général. Chaque saut qualitatif vers plus d'intelligence se traduit automatiquement par une meilleure capacité à comprendre, exploiter et générer du code malveillant.

Ce que Mythos pourrait faire entre de mauvaises mains

Les documents internes d'Anthropic, tels que décrits après la fuite, évoquent explicitement le risque d'un tel modèle "entre de mauvaises mains". Concrètement, un acteur malveillant disposant d'un accès à Claude Mythos pourrait automatiser la découverte de vulnérabilités zero-day à une vitesse et une échelle inédites, générer des outils d'exploitation sur mesure pour des cibles précises, ou encore contourner les défenses de sécurité de systèmes critiques - infrastructures, hôpitaux, réseaux financiers - avec une efficacité qui n'avait jusqu'ici jamais été atteinte par un outil automatisé.

La démocratisation de ce type de capacité représente un risque systémique. Un État hostile, un groupe criminel organisé ou même un individu isolé disposant de l'accès à un tel modèle bénéficierait d'un avantage asymétrique considérable face à des défenseurs qui, eux, continuent de travailler selon des méthodes traditionnelles.

Le paradoxe défense/attaque au coeur des modèles frontier

Le cas Mythos illustre parfaitement le paradoxe fondamental de la cybersécurité assistée par IA : le même outil qui détecte les vulnérabilités peut aussi les exploiter. C'est précisément ce double usage qui rend la gouvernance de ces modèles si complexe. Project Glasswing, l'initiative lancée par Anthropic, repose sur l'idée que l'on peut réserver les capacités offensives aux défenseurs. Mais la frontière entre les deux est, par nature, extrêmement poreuse.

Project Glasswing : la réponse d'Anthropic, entre prudence et communication maîtrisée

Un accès restreint aux "défenseurs" : qui décide et comment ?

Lancé officiellement le 7 avril 2026, le Project Glasswing constitue la réponse structurée d'Anthropic au problème posé par Claude Mythos. Le principe : limiter l'accès au modèle à un groupe sélectionné d'acteurs dont la mission principale est la défense - équipes de sécurité des grandes entreprises technologiques, chercheurs en cybersécurité accrédités, agences gouvernementales partenaires. Anthropic se positionne ainsi en arbitre de l'accès à une technologie qu'elle-même qualifie de dangereuse.

Cette position soulève des questions légitimes. Sur quels critères une entreprise privée, aussi bien intentionnée soit-elle, peut-elle décider qui a le droit d'accéder à un outil de cette puissance ? Qui contrôle le contrôleur ? Pour l'instant, ces questions restent largement sans réponse institutionnelle.

Un consortium entre onze géants et cinquante organisations partenaires

Selon Numerama, le Project Glasswing est financé à hauteur de 100 millions de dollars et implique un consortium de onze grands acteurs technologiques fondateurs. Le Blog du Modérateur évoque quant à lui une cinquantaine d'organisations partenaires au total - une distinction probable entre les membres fondateurs du consortium et l'ensemble des entités bénéficiant d'un accès dans le cadre du programme. Cette gouvernance collective est présentée par Anthropic comme une garantie de responsabilité partagée.

Une décision inédite dans l'industrie de l'IA

Ce qui rend l'affaire Mythos véritablement historique, c'est la décision explicite de ne jamais rendre le modèle public. Dans une industrie habituellement régie par la course à la publication et à la commercialisation, Anthropic franchit un seuil symbolique fort : celui d'une entreprise qui reconnaît avoir créé quelque chose de trop puissant pour être mis entre toutes les mains. C'est une première dans l'histoire commerciale de l'IA, et elle mérite d'être prise au sérieux - même si le risque d'un "security theater", c'est-à-dire d'une restriction d'accès utilisée à des fins de communication, ne peut pas être entièrement écarté.

Vers une nouvelle gouvernance des modèles IA à haut risque ?

Quelles leçons tirer de l'affaire Mythos pour la régulation ?

L'affaire Claude Mythos arrive à un moment charnière pour la régulation de l'IA. L'AI Act européen commence tout juste à entrer en application, et les débats sur les modèles "à haut risque" n'ont jamais été aussi concrets. Le cas Mythos fournit un exemple réel et documenté de ce à quoi peut ressembler un modèle frontier dangereux - et de l'insuffisance des cadres actuels pour y répondre.

La leçon la plus importante est peut-être celle-ci : attendre qu'un modèle soit rendu public pour l'évaluer et le réguler est une approche fondamentalement inadaptée quand les capacités les plus dangereuses peuvent être contenues avant toute diffusion. Il faut des mécanismes d'évaluation obligatoire en amont, des red teams indépendantes et un partage d'information entre laboratoires et régulateurs avant que les accidents ne surviennent.

Les modèles autonomes et le futur de la cybersécurité

À plus long terme, Claude Mythos annonce un monde dans lequel la cybersécurité sera fondamentalement redéfinie par l'IA - dans les deux sens du terme. Les défenseurs disposeront d'outils capables d'analyser en temps réel des millions de lignes de code à la recherche de failles, de simuler des attaques à grande échelle pour tester la résilience des systèmes, et de répondre aux incidents avec une vitesse et une précision inhumaines. Mais les attaquants potentiels, eux aussi, bénéficieront des mêmes avancées, que ce soit par accès légitime, par fuite ou par développement parallèle.

L'équilibre de la terreur numérique entre dans une nouvelle ère. Et l'affaire Claude Mythos, née d'une simple erreur de configuration sur un blog interne, en aura été le premier acte officiel.