概要
ChatGPTの開発元であるOpenAIと、暗号通貨に特化した投資会社Paradigmは、イーサリアム仮想マシン(EVM)のスマートコントラクトのセキュリティ向上を目的としたツール、EVMbenchを発表しました。
EVMbenchは、AIエージェントがイーサリアム仮想マシン(EVM)スマートコントラクトの高重大度脆弱性を検出、修正、悪用できる能力を評価するために設計されています。
スマートコントラクトは、分散型金融プロトコルやトークンのローンチなど、イーサリアムネットワークの中心的な役割を担っています。Token Terminalによると、2025年11月にはイーサリアム上に展開されたスマートコントラクトの週次数が史上最高の170万件に達し、先週だけで66万9500件が展開されました。
EVMbenchは、OpenAIのブログ投稿によると、Code4renaなどのオープン監査コンペティションから得られた40の監査から選定された120の脆弱性を基にしています。また、TempoやStripeの高スループット・低コストのステーブルコイン決済に特化したレイヤー1ブロックチェーンのセキュリティ監査のシナリオも含まれています。
決済大手Stripeは、2024年12月にTempoのパブリックテストネットを開始し、その際にVisaやShopify、OpenAIなどの意見を取り入れて構築していると発表しました。
この取り組みの目的は、特にAI駆動のステーブルコイン決済が拡大する中で、実用的なコードに基づいたテストを行うことにあります。
EVMbenchの紹介—AIエージェントが高重大度のスマートコントラクトの脆弱性を検出、悪用、修正できる能力を測定する新しいベンチマークです。https://t.co/op5zufgAGH
— OpenAI (@OpenAI) 2026年2月18日
EVMbenchは、「検出」「修正」「悪用」の3つのモードでAIモデルを評価します。
「検出」モードでは、エージェントがリポジトリを監査し、実際の脆弱性をどれだけ正確に把握できるかでスコア付けされます。
「修正」モードでは、エージェントは意図した機能を損なうことなく脆弱性を排除しなければなりません。
最後に、「悪用」モードでは、エージェントがサンドボックス化されたブロックチェーン環境でエンドツーエンドの資金流出攻撃を試み、決定論的なトランザクションリプレイによって評価されます。
悪用モードでは、OpenAIのCodex CLIを使用したGPT-5.3-Codexが72.2%のスコアを獲得し、6ヶ月前にリリースされたGPT-5の31.9%を上回りました。
検出と修正のタスクでは、エージェントが網羅的に監査できなかったり、コントラクトの完全な機能を維持するのに苦労したりするため、パフォーマンスはやや劣る傾向にあります。
ChatGPTの開発者たちは、EVMbenchは実世界のセキュリティの複雑さを完全には反映していないと警告しています。それでも、モデルが攻撃者と防御者の両方にとって強力なツールとなる中、経済的に重要な環境でのAIのパフォーマンス測定は非常に重要だと付け加えました。
サム・アルトマン率いるOpenAIとイーサリアムの共同創設者ビタリック・ブテリンは、これまでAIの進展速度について意見が対立してきました。
2025年1月、アルトマンは「私たちは従来理解してきた通りにAGIを構築できると自信を持っている」と述べました。一方、ブテリンは、警告サインが現れた場合に一時的に産業規模のAI運用を制限できる「ソフトポーズ」機能を備えるべきだと提言しています。
関連記事
データ:過去24時間で全ネットワークの強制清算額は2億7400万ドル、ロングポジションの強制清算は1億8900万ドル、ショートポジションの強制清算は8594.69万ドル
今買うべき最高の暗号資産:SOLとLINKが上昇する中、Pepetoは100倍を目指し、Ethereum財団はETHをAIの信頼層にする計画