OpenAI abandonne EVMbench après la catastrophe du code Claude Vibe

LiveBTCNews
DEFI6,86%
WELL-0,63%
L18,91%
CODEX0,23%

OpenAI lance EVMbench pour tester les agents IA sur la sécurité des contrats intelligents, quelques jours après qu’un code assisté par Claude Opus 4.6 a déclenché une exploitation DeFi de 1,78 million de dollars.

Les contrats intelligents protègent plus de 100 milliards de dollars d’actifs cryptographiques open-source. Ce chiffre seul devrait expliquer pourquoi la dernière initiative d’OpenAI attire autant l’attention. La société, en collaboration avec le fonds d’investissement crypto Paradigm, a lancé EVMbench, un benchmark conçu pour tester la capacité des agents IA à détecter, exploiter et corriger des vulnérabilités critiques de contrats intelligents.

Le benchmark s’appuie sur 120 vulnérabilités sélectionnées issues de 40 audits. La majorité provient de concours d’audit de code open-source. Ce qui le différencie, c’est l’étendue. EVMbench évalue trois modes de capacité distincts : détection, correction et exploitation, chacun mesuré séparément et noté via un environnement de test basé sur Rust qui rejoue les transactions dans un environnement sandbox local. Aucun réseau en direct impliqué.

Le chiffre qui devrait inquiéter tout le monde

En mode exploitation, GPT-5.3-Codex via Codex CLI a obtenu un score de 72,2 %. Il y a six mois, GPT-5 atteignait 31,9 % sur la même métrique. Cet écart n’est pas négligeable. OpenAI a confirmé ces chiffres dans son annonce officielle sur X, présentant EVMbench comme un outil de mesure et un appel à l’action pour la communauté de la sécurité.

Les scores de détection et de correction restent plus faibles. Les agents en mode détection identifient parfois une seule vulnérabilité puis s’arrêtent. Ils n’explorent pas tout le code. En mode correction, le défi consiste à préserver la pleine fonctionnalité du contrat tout en supprimant la faille. Cet équilibre pose encore problème aux modèles.

À lire absolument : Trust Wallet Security Hack : Comment protéger vos actifs

Une erreur d’oracle de 1,78 million de dollars que personne n’a repérée

Le contexte de tout cela est important. Le chercheur en sécurité evilcos a signalé sur X que le protocole de prêt DeFi Moonwell a subi une perte d’environ 1,78 million de dollars. La cause était une erreur de configuration d’un oracle. Une formule de feed de prix était mal écrite, fixant la valeur du cbETH à 1,12 $ au lieu d’environ 2 200 $.

C’est une erreur de bas niveau. Un audit minutieux devrait la repérer. La pull request GitHub pour la proposition MIP-X43 montrait des commits co-rédigés par Claude Opus 4.6, le modèle le plus avancé d’Anthropic à l’époque.

L’auditeur de contrats intelligents pashov a publié sur X qu’il s’agissait peut-être de la première exploitation liée au vibe-coded Solidity. Il a précisé que les revues humaines restent responsables en dernier ressort. Un auditeur de sécurité doit valider avant que tout ne soit mis en chaîne. Mais quelque chose dans cette chaîne a échoué.

Ce que EVMbench est réellement conçu pour faire

Le benchmark inclut des scénarios de vulnérabilités issus de l’audit de sécurité de la blockchain Tempo, une blockchain L1 conçue pour des paiements en stablecoins à haut débit. Cette extension pousse EVMbench dans le domaine des contrats liés aux paiements, un secteur où OpenAI prévoit une croissance de l’activité des stablecoins pilotée par des agents IA.

Chaque tâche d’exploitation s’exécute dans une instance Anvil isolée. Les transactions sont rejouées de manière déterministe. La configuration de notation limite l’utilisation de méthodes RPC non sécurisées et a été testée en interne pour empêcher les agents de manipuler les résultats. Les vulnérabilités utilisées sont historiques et documentées publiquement.

OpenAI s’engage également à fournir 10 millions de dollars en crédits API pour accélérer la cybersécurité, avec une priorité pour les logiciels open-source et les infrastructures critiques. Son agent de recherche en sécurité, Aardvark, passe en bêta privée. La détection gratuite de code open-source largement utilisé fait partie de cette initiative.

La question du vibe-coded avec des enjeux réels

Le post de pashov sur X a soulevé ce que beaucoup dans l’espace DeFi évitaient. Quand l’IA écrit du code Solidity en production et que les humains l’approuvent rapidement, la couche de revue devient mince. L’incident Moonwell a montré à quel point cette couche peut devenir fragile.

OpenAI a reconnu que la cybersécurité est intrinsèquement duale. Sa réponse est basée sur des preuves. La formation à la sécurité, la surveillance automatisée et les contrôles d’accès pour des capacités avancées en font partie. Mais un score d’exploitation de 72,2 % sur un benchmark public est un chiffre qui ne reste pas discret.

L’ensemble des tâches, outils et code d’évaluation d’EVMbench sont désormais publics. L’objectif est de permettre aux chercheurs de suivre l’évolution des capacités cyber IA et de développer des défenses au même rythme. Reste à savoir si ce rythme est suffisamment rapide, la question n’ayant pas encore trouvé de réponse.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire