Claude Mythos et les benchmarks IA : comment mesurer vraiment les performances d'un modèle ?

Anthropic vient d'annoncer Claude Mythos Preview, un modèle si performant qu'il ne sera pas rendu public. Des scores à 93,9 % sur SWE-bench, 100 % sur Cybench, des milliers de failles zero-day découvertes en quelques semaines : les chiffres sont vertigineux. Mais derrière l'avalanche de benchmarks record se pose une question fondamentale, et souvent trop vite évacuée - ces chiffres mesurent-ils vraiment ce qu'on croit mesurer ?

Quand un modèle dépasse les outils censés le mesurer

Le 7 avril 2026, Anthropic a officiellement présenté Claude Mythos Preview, son nouveau modèle dit "frontier". La particularité de cette annonce ? L'entreprise a simultanément expliqué pourquoi elle ne rendrait pas ce modèle accessible au grand public. Une première dans l'histoire de l'IA générative. La raison avancée : les capacités du modèle sont jugées trop dangereuses, notamment pour les infrastructures critiques et la cybersécurité mondiale.

Ce positionnement inédit soulève immédiatement une tension : comment évaluer sérieusement un modèle que personne d'autre que quelques dizaines d'organisations partenaires ne peut tester ? Et plus largement, les outils de mesure que nous utilisons pour qualifier les performances des IA sont-ils encore à la hauteur de ce que ces systèmes accomplissent réellement ?

Qu'est-ce qu'un benchmark d'IA, exactement ?

Un benchmark est un ensemble de tâches standardisées, conçu pour évaluer les capacités d'un modèle dans un domaine précis et permettre des comparaisons objectives entre systèmes différents. On distingue généralement plusieurs grandes familles.

Les benchmarks de codage et d'ingénierie logicielle

SWE-bench est aujourd'hui la référence pour mesurer la capacité d'un modèle à résoudre de véritables bugs issus de projets open source réels. Sa version "Verified" isole les problèmes dont la résolution est vérifiable sans ambiguïté. SWE-bench Pro va plus loin en s'attaquant à des problèmes d'ingénierie complexes, multi-fichiers, proches des conditions réelles de développement professionnel.

Les benchmarks de raisonnement scientifique

GPQA Diamond (Graduate-Level Google-Proof Q&A) mesure la capacité à répondre à des questions de niveau doctorat dans des domaines comme la chimie, la biologie ou la physique - des questions auxquelles même des experts humains spécialisés peinent à répondre correctement. Humanity's Last Exam pousse le curseur encore plus loin, avec des problèmes conçus spécifiquement pour résister aux IA actuelles.

Les benchmarks de cybersécurité

Cybench et CyberGym évaluent la capacité d'un modèle à identifier et exploiter des vulnérabilités dans des environnements contrôlés. Terminal-Bench 2.0, plus récent, mesure l'exécution autonome de tâches complexes en ligne de commande, un indicateur clé des capacités dites "agentiques".

Claude Mythos Preview : une avalanche de scores record

Les chiffres publiés par Anthropic sont, il faut le reconnaître, spectaculaires. Voici les principaux scores annoncés, tous comparés à son prédécesseur Claude Opus 4.6 :

SWE-bench Verified : 93,9 % pour Mythos, contre 80,8 % pour Opus 4.6
SWE-bench Pro : 77,8 % - un niveau inédit pour ce benchmark exigeant
GPQA Diamond : 94,6 %, soit au-dessus du niveau expert PhD humain
Humanity's Last Exam : 56,8 % contre 40 % pour Opus 4.6
Terminal-Bench 2.0 : 82 % contre 65,4 %
Cybench : 100 % - un score parfait, rendant ce benchmark officiellement caduc

Ces progressions ne sont pas incrémentales. Elles signalent un changement de catégorie. Sur Humanity's Last Exam, le gain de seize points de pourcentage représente une transformation qualitative du niveau de raisonnement du modèle, non un simple raffinement.

Le cas Cybench : quand 100 % rend un test inutile

L'un des éléments les plus significatifs de cette annonce est la déclaration explicite d'Anthropic : Cybench est désormais obsolète pour évaluer des modèles de cette génération. Quand un modèle atteint le score parfait sur un benchmark, celui-ci perd toute valeur discriminante. Il ne mesure plus rien d'utile.

Mais ce n'est pas seulement un problème de plafond atteint. C'est la révélation d'une limite structurelle profonde des benchmarks de cybersécurité : ils sont construits sur des scénarios connus, des environnements balisés, des vulnérabilités déjà documentées. Or Claude Mythos, selon les données publiées par Blog du Modérateur, a identifié des milliers de vulnérabilités critiques dans des systèmes d'exploitation et navigateurs majeurs - en quelques semaines seulement - dont aucun outil automatisé existant n'avait détecté la trace.

L'exemple le plus frappant est celui d'un bug vieux de 27 ans dans le système d'exploitation OpenBSD, passé inaperçu à travers des millions de scans automatisés depuis sa création. Aucun benchmark existant ne pouvait prévoir ni mesurer ce type de découverte. On touche ici à la limite fondamentale de tout système d'évaluation : il ne peut mesurer que ce qu'il a été conçu à anticiper.

Peut-on vraiment faire confiance aux benchmarks pour évaluer une IA ?

Le problème de l'auto-évaluation

Tous les chiffres publiés sur Claude Mythos proviennent d'Anthropic elle-même. Aucune des sources disponibles ne cite de validation indépendante par des organismes tiers comme METR, ARC Evals, ou des équipes académiques spécialisées. C'est une limite sérieuse. Dans n'importe quel domaine scientifique, une affirmation extraordinaire requiert une vérification extraordinaire. Or ici, la nature même du modèle - restreint à une cinquantaine d'organisations via Project Glasswing - rend cette vérification structurellement difficile.

La contamination des données d'entraînement

Un problème bien documenté dans la littérature sur l'évaluation des LLM est celui de la contamination des données : si les questions d'un benchmark ont été intégrées, même indirectement, dans les données d'entraînement d'un modèle, ses scores sur ce benchmark seront artificiellement gonflés. Les benchmarks publics comme GPQA Diamond ou SWE-bench sont particulièrement exposés à ce risque, leurs questions étant disponibles en ligne. Des scores proches de la perfection sur des tests publics doivent donc toujours être lus avec prudence.

L'effet de seuil et la perte de sens des métriques

Au-delà d'un certain niveau de performance, les métriques classiques perdent leur sens. Un score de 94,6 % sur GPQA Diamond signifie que le modèle dépasse le niveau expert humain dans les disciplines testées. Mais qu'est-ce que cela implique réellement dans un contexte d'utilisation concret ? La corrélation entre un score de benchmark et une utilité réelle dans le monde n'est jamais automatique. Un modèle peut saturer un benchmark tout en échouant sur des tâches légèrement hors distribution - c'est-à-dire légèrement différentes de celles qu'il a apprises à traiter.

Project Glasswing : quand la performance force à réinventer la gouvernance

Face à ces capacités, Anthropic n'a pas seulement décidé de ne pas publier le modèle. L'entreprise a initié le Project Glasswing, un consortium défensif inédit réunissant AWS, Apple, Google, Microsoft, Nvidia et d'autres acteurs majeurs du secteur technologique. L'objectif : encadrer l'accès à Mythos en le réservant à des organisations spécialisées dans la cyberdéfense.

Ce fait est en lui-même remarquable. Des concurrents directs, qui se livrent une bataille commerciale intense sur le marché des modèles d'IA, ont accepté de coordonner leur action autour d'un modèle qu'aucun d'eux n'a développé. C'est un signal fort sur la perception partagée du risque associé à cette génération de systèmes.

Mais cette gouvernance soulève également une question épineuse pour l'évaluation des IA : si l'accès est restreint, comment organiser une évaluation externe crédible ? Le modèle de certification indépendante, déjà difficile à mettre en oeuvre pour des modèles publics, devient presque impraticable dans ce cadre fermé. La transparence et la performance maximale semblent, pour la première fois, entrer en contradiction directe.

Vers de nouveaux standards pour mesurer les IA de demain

L'affaire Claude Mythos met en lumière un chantier urgent : la refondation des outils d'évaluation des grandes IA. Plusieurs pistes sont discutées dans la communauté de recherche.

Des benchmarks dynamiques et adversariaux

Plutôt que des ensembles de questions fixes, des benchmarks adversariaux générés dynamiquement permettraient de limiter la contamination et de tester en continu les limites réelles d'un modèle. Des initiatives comme BIG-Bench Hard ou les évaluations dynamiques d'ARC Evals vont dans cette direction.

Le rôle indispensable des organismes indépendants

La crédibilité de l'évaluation des IA à haut risque ne peut plus reposer sur les seuls laboratoires qui développent ces systèmes. Des organismes indépendants, disposant d'un accès garanti aux modèles et de ressources suffisantes pour les tester en profondeur, sont devenus une nécessité. En Europe, l'AI Act prévoit des mécanismes d'audit pour les modèles à risque élevé - mais leur mise en oeuvre pratique sur des systèmes aussi avancés que Mythos reste un défi considérable.

Mesurer les capacités émergentes, pas seulement les performances déclarées

Le cas du bug OpenBSD illustre une réalité décisive : les capacités les plus importantes d'un modèle avancé ne sont pas nécessairement celles pour lesquelles il a été explicitement entraîné, ni celles que les benchmarks standards cherchent à mesurer. Évaluer des capacités émergentes - celles qui apparaissent spontanément à partir d'un certain niveau de compétence générale - requiert des protocoles d'évaluation radicalement différents, proches de l'exploration scientifique plutôt que du contrôle qualité industriel.

Conclusion : mesurer une IA, un enjeu désormais autant politique que technique

Claude Mythos Preview n'est pas seulement un modèle exceptionnellement performant. C'est un révélateur. Il expose les failles d'un écosystème d'évaluation conçu pour une génération de systèmes moins puissants, et il pose avec une acuité nouvelle la question de qui a le droit - et les moyens - de dire ce qu'une IA sait vraiment faire.

Tant que les benchmarks restent des outils auto-administrés par les développeurs eux-mêmes, que les données d'entraînement et les protocoles de test restent opaques, et que les modèles les plus puissants restent inaccessibles à des évaluateurs indépendants, les scores publiés resteront des indicateurs partiels et potentiellement biaisés. Impressionnants, certainement. Décisifs pour la gouvernance de l'IA, pas encore.

La véritable mesure des performances d'un modèle comme Mythos ne se trouvera pas dans un tableau de benchmarks. Elle se construira dans la durée, à travers des protocoles ouverts, des vérifications croisées et une volonté collective - y compris de la part des laboratoires - de soumettre leurs systèmes à un regard extérieur. C'est à ce prix que la mesure de l'IA cessera d'être un exercice de communication pour devenir une véritable discipline scientifique.