OpenAIは、AIエージェントが暗号スマートコントラクトのセキュリティ脆弱性を検出、軽減、さらには悪用する能力を測定するためのベンチマークフレームワークを発表しました。このプロジェクトは、「EVMbench:スマートコントラクトのセキュリティにおけるAIエージェントの評価」と題され、ブロックチェーンセキュリティと投資に深く関与するParadigmとOtterSecの協力のもとリリースされました。研究では、40件のスマートコントラクト監査から抽出された120の潜在的脆弱性を厳選し、検出と修正能力だけでなく、制御された環境下での理論的な悪用可能性も定量化しようとしています。
主なポイント
EVMbenchは、オープンソースの監査コンペティションから抽出された脆弱性を中心に、40件のスマートコントラクト監査から選ばれた120の脆弱性に対してAIエージェントをテストしています。
テスト対象のモデルの中で、AnthropicのClaude Opus 4.6が平均検出報酬37,824ドルでトップに立ち、次いでOpenAIのOC-GPT-5.2が31,623ドル、GoogleのGemini 3 Proが25,112ドルとなっています。
OpenAIはこのベンチマークを、「おもちゃのタスク」だけでなく、実世界の経済的に意味のある環境でのAIのパフォーマンスを測る一歩と位置付けており、暗号セキュリティの攻撃者と防御者にとっての実用的な影響を強調しています。
研究者たちは、スマートコントラクトが数十億ドルの資産を保護していることを指摘し、攻撃と防御の両面でAIを活用したツールの戦略的価値を強調しています。
業界の観測者は、これらの動きがAI駆動の支払いとステーブルコインの日常取引における役割についての議論と結びついていると指摘し、主要な経営幹部は今後数年でエージェントの利用が拡大すると予測しています。
こうした取り組みの背景には、2025年の暗号セキュリティインシデントデータがあり、攻撃者が約34億ドルを引き出した事例が示すように、脆弱性と攻撃を通じた資金流出が継続していることから、堅牢なAI監査と防御メカニズムの需要が高まっています。
検出報酬の詳細は、OpenAIのPDF資料に記載されており、評価方法や実世界のスマートコントラクトリスクをシミュレートするシナリオも説明されています。著者たちは、AIエージェントがさまざまなルーチン作業を自動化するために進化してきた一方で、「経済的に意味のある環境」でのパフォーマンス評価が、実運用時の圧力下での性能理解に不可欠であると強調しています。
「スマートコントラクトは数十億ドルの資産を守っており、AIエージェントは攻撃者と防御者の両方にとって革新的な存在となる可能性があります。」
OpenAIは、エージェント技術が支払いと決済の範囲を拡大し、特に自動化されたワークフローで使われるステーブルコインの利用も含めて広がると予測しています。AIを活用した支払いの議論は、セキュリティテストを超え、日常の金融活動に自律システムがどのように関与していくかという広範なテーマに及びます。同社の予測によれば、エージェントによる支払いはより一般的になり、AIの能力を実用的なユースケースに根ざしたものにしていくとしています。
ベンチマークの結果と併せて、CircleのCEOジェレミー・アレアは、今後5年以内に数十億のAIエージェントがステーブルコインを用いた日常支払いを行うと公に予測しています。この見解は、暗号界で繰り返し議論されているテーマとも交差し、暗号資産がAIエージェントのネイティブ通貨になる可能性についても注目されています。こうした予測はあくまで見通しに過ぎませんが、AI自動化が実験室から取引層へと移行し、ネットワーク上の価値移動の仕組みを変える可能性が明確になっています。
この研究は、暗号資産のセキュリティが引き続き投資家にとって重要なリスク要因である現状において、特に重要です。2025年の暗号資金流出に関するデータ(約34億ドルの流出)を踏まえると、より高度なツールと迅速かつ信頼性の高い修正メカニズムの必要性が浮き彫りになります。EVMbenchは、AIエージェントが大規模な防御能力に実質的に貢献できるかどうかを測る一つの手段として位置付けられ、悪用の機会を減らし、脅威の迅速な軽減を促進します。
このベンチマークは、40件のスマートコントラクト監査から抽出された120の脆弱性をもとに構築され、多くはオープンソースの監査チャレンジに由来します。OpenAIは、このベンチマークがAIの進歩を追跡し、契約レベルの弱点を大規模に認識・軽減できるようにするための標準化された評価手法となると主張しています。また、AIがリスク評価の標準化やさまざまなスマートコントラクトアーキテクチャへの適用に役立つ可能性も示しています。
スマートコントラクトは人間のために作られたものではない:Dragonfly
同時期にX上のスレッドで、Dragonflyのパートナーであるハシーブ・クレシは、暗号の約束である所有権や従来の契約の置き換えが実現しなかったのは、技術の失敗ではなく、人間の直感を考慮して設計されていなかったからだと指摘しました。彼は、大きな取引に署名する際の恐怖やリスクを伴う攻撃ベクター(ドレイナーウォレットなど)が常に存在する環境と、従来の銀行送金のスムーズさとを対比させています。
クレシは、次の段階の暗号取引は、AIを介した自己運転型ウォレットによって可能になると述べています。こうしたウォレットはリスクを監視し、複雑な操作を管理し、ユーザーに代わって脅威に自律的に対応することで、今日の大きな取引に伴う摩擦や恐怖を軽減できる可能性があります。
「技術は、その補完物が到達すれば一気に実現します。GPSはスマートフォンを待ち、TCP/IPはブラウザを待ちました。暗号にとっては、AIエージェントこそがそれかもしれません。」
このスレッドの大きなメッセージは、AIエージェントが暗号との関わり方を変革し、手動でエラーの多い取引から自動化されたリスク認識型のプロセスへと移行させる可能性があるという点です。AIエージェントがセキュリティ問題の処理により高い能力を示すようになれば、分散型金融のワークフローの信頼性と耐性が向上し、技術の成熟とともにユーザー体験も改善されると期待されています。
次に注目すべき点
追加のAIモデルやアーキテクチャに対して、完全なEVMbenchデータセットの公開と独立した再現性の確保。
監査人、取引所、DeFiプロジェクトによるAI支援監査ワークフローの普及とセキュリティ強化。
エージェント型ウォレットや自律支払いフローの研究、規制やコンプライアンスの観点からのAI管理資産の検討。
新バージョンのリリースに伴う他のAIシステムとの比較ベンチマーク、検出精度や修正速度の向上を追跡。
出典と検証
OpenAI:EVMbench:スマートコントラクトのセキュリティにおけるAIエージェントの評価 — PDF:https://cdn.openai.com/evmbench/evmbench.pdf
OpenAI:EVMbenchの紹介 — https://openai.com/index/introducing-evmbench/
2025年の暗号セキュリティ損失(報道範囲):https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
Dragonfly:ハシーブ・クレシによるAIと暗号UXについてのX投稿:https://x.com/hosseeb/status/2024136762424185208
中国のAIリードと暗号への影響(分析):https://cointelegraph.com/news/china-ai-lead-future
AI Eye — IronClawとPolymarketのAIボット開発動向:https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/
主要な数値と今後の展望
EVMbenchの研究は、大規模言語モデルや関連AIエージェントがスマートコントラクト分野で意味のあるセキュリティ作業を開始し、モデル間で明確な差異が見られることを示しています。Claude Opus 4.6の平均検出報酬のリードは、特定のアーキテクチャが複雑な契約ロジック内の脆弱性を見つけて軽減する能力に優れている可能性を示し、他のモデルは遅れをとっています。複数の業界パートナーが参加していることは、AIを活用したセキュリティと自動リスク管理が分散型環境で拡大していくという共通認識の高まりを反映しています。
今後、AIエージェントが検出から修復までどれだけ迅速に移行できるか、またライブシステムで信頼性を保ちながら新たなリスクを生み出さずに運用できるかが注目されます。AI駆動のウォレットや自律支払いの議論は、セキュリティガバナンスやユーザーの同意、規制との整合性といったより広範な問題にも関わっています。OpenAIとそのパートナーの見通しが続くなら、AI支援ツールは将来の暗号インフラの中核を担い、リスク評価やユーザー体験を根本的に変える可能性があります。次のベンチマークや実運用の展開を通じて、その実現スピードと必要な安全策が明らかになっていくでしょう。
この記事は、OpenAIが暗号ニュースの信頼できる情報源「Crypto Breaking News」で、スマートコントラクトに対するAIエージェントのレッドチーム評価を行った内容として最初に公開されました。