OpenAI a dévoilé un cadre de référence visant à mesurer l’efficacité des agents d’IA dans la détection, la mitigation, et même l’exploitation des vulnérabilités de sécurité dans les contrats intelligents cryptographiques. Le projet, intitulé « EVMbench : Évaluation des agents d’IA sur la sécurité des contrats intelligents », a été publié en collaboration avec Paradigm et OtterSec, deux organisations fortement impliquées dans la sécurité et l’investissement blockchain. L’étude évalue les agents d’IA face à un ensemble sélectionné de 120 faiblesses potentielles issues de 40 audits de contrats intelligents, cherchant à quantifier non seulement leurs capacités de détection et de correction, mais aussi leur potentiel d’exploitation théorique dans un environnement contrôlé.
Principaux enseignements
EVMbench teste les agents d’IA contre 120 vulnérabilités extraites de 40 audits de contrats intelligents, en mettant l’accent sur des vulnérabilités issues de concours d’audit open-source.
Parmi les modèles testés, Claude Opus 4.6 d’Anthropic a obtenu la meilleure moyenne de détection avec une récompense de 37 824 $, suivi par OC-GPT-5.2 d’OpenAI à 31 623 $ et Gemini 3 Pro de Google à 25 112 $.
OpenAI présente ce benchmark comme une étape vers la mesure de la performance de l’IA dans des « environnements économiquement significatifs », et pas seulement dans des tâches ludiques, soulignant les implications concrètes pour les attaquants et défenseurs dans le paysage de la sécurité crypto.
Les chercheurs notent que les contrats intelligents sécurisent des milliards de dollars d’actifs, soulignant la valeur stratégique des outils alimentés par l’IA pour les activités offensives comme défensives.
Les observateurs de l’industrie relient ces développements à des discussions plus larges sur les paiements pilotés par l’IA et le rôle des stablecoins dans les transactions quotidiennes, avec des dirigeants majeurs anticipant une utilisation croissante des agents dans les années à venir.
Le contexte de ce travail est renforcé par les données sur les incidents de sécurité crypto en 2025, qui montrent un flux continu de fonds via des vulnérabilités et attaques, renforçant la demande pour des mécanismes d’audit et de défense robustes, rapides et fiables.
Les récompenses de détection pour les agents d’IA sont détaillées dans le PDF d’OpenAI accompagnant l’étude, qui décrit également la méthodologie d’évaluation et les scénarios simulant les risques réels liés aux contrats intelligents. Les auteurs insistent sur le fait que, bien que les agents d’IA aient évolué pour automatiser une large gamme de tâches routinières, il est essentiel d’évaluer leur performance dans des « environnements économiquement significatifs » pour comprendre leur comportement en situation de pression dans des systèmes en production.
« Les contrats intelligents sécurisent des milliards de dollars d’actifs, et les agents d’IA seront probablement transformatifs pour les attaquants comme pour les défenseurs. »
OpenAI prévoit que ces technologies d’agents élargiront le champ des paiements et règlements, y compris l’utilisation de stablecoins dans des workflows automatisés. La discussion autour des paiements pilotés par l’IA dépasse le simple test de sécurité pour aborder la question plus large de la participation des systèmes autonomes dans la finance quotidienne. Les projections de l’entreprise suggèrent que les paiements agentiques pourraient devenir plus courants, ancrant les capacités de l’IA dans des cas d’usage pratiques touchant les transactions des consommateurs.
Parallèlement aux résultats du benchmark, Jeremy Allaire, CEO de Circle, a publiquement prévu que des milliards d’agents d’IA pourraient effectuer des transactions avec des stablecoins pour des paiements quotidiens dans les cinq prochaines années. Cette vision rejoint un thème récurrent dans la communauté crypto : le potentiel pour la crypto de devenir la monnaie native des agents d’IA, une narration qui a attiré l’attention notable des leaders et investisseurs du secteur. Bien que ces prédictions restent spéculatives, la tendance sous-jacente est claire — l’automatisation par l’IA quitte le laboratoire pour s’intégrer à la couche transactionnelle, pouvant ainsi transformer la circulation de la valeur à travers les réseaux.
L’étude arrive à un moment où la sécurité crypto demeure un facteur de risque majeur pour les investisseurs. La donnée concernant l’attaque de 2025 sur les fonds crypto — environ 3,4 milliards de dollars dérobés — souligne l’urgence d’améliorer les outils et de déployer des mécanismes de correction plus rapides et fiables. Le cadre EVMbench se positionne, en partie, comme un moyen de mesurer si les agents d’IA peuvent contribuer efficacement à la défense à grande échelle, en réduisant les opportunités d’exploitation et en accélérant la mitigation des menaces.
Pour construire ce benchmark, les chercheurs ont analysé 120 vulnérabilités sélectionnées provenant de 40 audits de contrats intelligents, dont beaucoup remontent à des défis d’audit open-source. OpenAI affirme que ce benchmark aidera à suivre les progrès de l’IA dans la reconnaissance et la mitigation des faiblesses au niveau des contrats, en proposant une méthode standardisée pour comparer l’évolution des futurs modèles d’IA. L’étude offre également une perspective sur la manière dont l’IA pourrait normaliser l’évaluation des risques à travers une large gamme d’architectures de contrats intelligents, plutôt que de se concentrer uniquement sur des cas isolés.
Les contrats intelligents n’ont pas été conçus pour l’humain : Dragonfly
Dans un fil de discussion sur X, Haseeb Qureshi, partenaire chez Dragonfly, a soutenu que la promesse de la crypto de remplacer les droits de propriété et les contrats traditionnels n’a jamais été réalisée, non pas parce que la technologie a échoué, mais parce qu’elle n’a jamais été conçue en pensant à l’intuition humaine. Il a souligné la peur persistante liée à la signature de transactions importantes dans un environnement où les portefeuilles de drain et autres vecteurs d’attaque restent une menace constante, contrastant avec l’expérience plus fluide des transferts bancaires traditionnels.
Qureshi affirme que la prochaine étape des transactions crypto pourrait être rendue possible par des portefeuilles autonomes, assistés par l’IA. Ces portefeuilles surveilleraient les risques, géreraient des opérations complexes et répondraient de manière autonome aux menaces au nom des utilisateurs, réduisant ainsi la friction et la crainte associées aux transferts importants aujourd’hui.
« Une technologie s’intègre souvent une fois que son complément arrive enfin. Le GPS a dû attendre le smartphone, TCP/IP a dû attendre le navigateur. Pour la crypto, nous pourrions simplement l’avoir trouvée dans les agents d’IA. »
La conclusion générale de ce fil est que les agents d’IA pourraient jouer un rôle clé dans la transformation des interactions avec la crypto — passant de transactions manuelles, sujettes à erreur, à des processus automatisés, conscients des risques et évolutifs avec l’adoption. À mesure que ces agents démontreront une plus grande compétence dans la gestion des enjeux de sécurité, les utilisateurs pourraient bénéficier d’une meilleure fiabilité et résilience dans les workflows DeFi, même si les technologies sous-jacentes continuent de mûrir.
À quoi s’attendre ensuite
Publication et reproduction indépendante de l’ensemble des données EVMbench sur d’autres modèles et architectures d’IA.
Adoption plus large de workflows d’audit assistés par l’IA par les auditeurs, exchanges et projets DeFi souhaitant renforcer leur posture de sécurité.
Exploration des portefeuilles autonomes et des flux de paiement automatisés, y compris les considérations réglementaires et de conformité pour les actifs gérés par l’IA.
Benchmarks futurs comparant davantage de systèmes d’IA à mesure que de nouvelles versions seront déployées, pour suivre les améliorations en précision de détection et rapidité de correction.
Sources & vérification
OpenAI : EVMbench : Évaluation des agents d’IA sur la sécurité des contrats intelligents — PDF : https://cdn.openai.com/evmbench/evmbench.pdf
OpenAI : Présentation d’EVMbench — https://openai.com/index/introducing-evmbench/
Pertes de sécurité crypto en 2025 (couverture du rapport) : https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
Dragonfly : Haseeb Qureshi sur l’UX crypto et l’IA (post X) : https://x.com/hosseeb/status/2024136762424185208
Implications de la position de la Chine en IA et crypto (analyse) : https://cointelegraph.com/news/china-ai-lead-future
AI Eye — Développements d’IronClaw et de bots IA dans la couverture de Polymarket : https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/
Chiffres clés et prochaines étapes
L’étude EVMbench démontre que les grands modèles de langage et les agents d’IA associés commencent à réaliser un travail de sécurité significatif dans le domaine des contrats intelligents, avec des différences clairement quantifiables entre modèles. La domination de Claude Opus 4.6 en moyenne de détection indique que certaines architectures pourraient être plus aptes à repérer et atténuer les vulnérabilités dans des logiques complexes, tandis que d’autres sont en retrait, offrant un spectre de capacités que les chercheurs chercheront probablement à affiner. La participation de multiples partenaires industriels dans le projet souligne le consensus croissant selon lequel la sécurité alimentée par l’IA et la gestion automatisée des risques pourraient devenir essentielles à l’échelle dans les environnements décentralisés.
À mesure que le domaine évolue, les observateurs surveilleront la rapidité avec laquelle les agents d’IA peuvent passer de la détection à la correction, et si ces agents peuvent fonctionner de manière fiable en systèmes en direct sans introduire de nouveaux risques. La discussion sur les portefeuilles pilotés par l’IA et les paiements autonomes soulève des questions plus larges sur la gouvernance de la sécurité, le consentement des utilisateurs et la conformité réglementaire. Si la trajectoire tracée par OpenAI et ses partenaires se poursuit, les outils assistés par l’IA pourraient devenir un composant central de la future infrastructure crypto, modifiant à la fois le calcul du risque et l’expérience utilisateur. La prochaine série de benchmarks, accompagnée de déploiements réels, aidera à déterminer la rapidité avec laquelle cette vision se concrétisera et quels garde-fous devront être mis en place.