OpenAIは、AIエージェントが暗号スマートコントラクトのセキュリティ脆弱性を検出、軽減、さらには悪用する能力を測定するためのベンチマークフレームワークを発表しました。このプロジェクトは、「EVMbench:スマートコントラクトのセキュリティにおけるAIエージェントの評価」と題され、ブロックチェーンのセキュリティと投資に深く関わるParadigmとOtterSecの協力のもと公開されました。研究では、40件のスマートコントラクト監査から抽出された120の潜在的な脆弱性を厳選し、検出と修正能力だけでなく、制御された環境下での理論的な悪用可能性も評価しています。
主なポイント
EVMbenchは、オープンソースの監査コンペティションから抽出された脆弱性を中心に、40件のスマートコントラクト監査から選ばれた120の脆弱性に対してAIエージェントをテストしています。
テスト対象のモデルの中で、AnthropicのClaude Opus 4.6が平均検出報酬37,824ドルでトップに立ち、次いでOpenAIのOC-GPT-5.2が31,623ドル、GoogleのGemini 3 Proが25,112ドルを記録しました。
OpenAIはこのベンチマークを、「おもちゃのタスク」だけでなく、実世界の経済的に意味のある環境でのAIのパフォーマンスを測る一歩と位置付けており、暗号セキュリティの攻撃者と防御者にとっての実用的な意味合いを強調しています。
研究者たちは、スマートコントラクトが数十億ドルの資産を保護していることを指摘し、攻撃と防御の両面でAIを活用したツールの戦略的価値を強調しています。
業界の観測者は、これらの動きがAI駆動の支払いとステーブルコインの役割に関するより広範な議論と結びついていると指摘し、主要な経営幹部は今後数年でエージェントの利用が拡大すると予測しています。
こうした背景には、2025年の暗号セキュリティインシデントのデータもあり、攻撃者が約34億ドルを不正に引き出した事例は、より堅牢なツールと迅速かつ信頼性の高いパッチ適用の必要性を浮き彫りにしています。EVMbenchは、AIエージェントが大規模な防御能力に実質的に貢献できるかどうかを測る一つの指標として位置付けられています。
このベンチマークの構築には、40件のスマートコントラクト監査から抽出された120の脆弱性が利用され、多くはオープンソースの監査チャレンジに由来します。OpenAIは、このベンチマークがAIの進歩を追跡し、将来のモデルの比較や、リスク評価の標準化に役立つとしています。
スマートコントラクトは人間のために作られたものではない:Dragonfly
同時期にX上で、Dragonflyのパートナーであるハシーブ・クレシは、暗号の約束である所有権や従来の契約の置き換えは、技術の失敗ではなく、人間の直感を考慮して設計されていなかったためだと指摘しました。彼は、大きな取引を行う際の恐怖やリスクを伴う攻撃ベクター(ドレイナーウォレットなど)が常に存在する環境での不安を強調し、従来の銀行送金のスムーズさと対比させています。
クレシは、次の段階の暗号取引は、AIを介した自己運転型ウォレットによって可能になると述べています。こうしたウォレットはリスクを監視し、複雑な操作を管理し、ユーザーに代わって脅威に自律的に対応することで、今日の大きな取引に伴う摩擦や不安を軽減できる可能性があります。
「技術は、その補完物が到達したときに一気に実現することが多い。GPSはスマートフォンを待ち、TCP/IPはブラウザを待った。暗号においては、AIエージェントこそがそれかもしれない。」
このスレッドの重要なポイントは、AIエージェントが暗号との関わり方を変革し、手動でエラーの多い取引から自動化されたリスク認識型のプロセスへと移行させる役割を果たす可能性があることです。AIエージェントがセキュリティ問題の処理においてより高い能力を示すにつれ、分散型金融(DeFi)のワークフローの信頼性と耐性が向上することが期待されます。
次に注目すべき点
EVMbenchの全データセットの公開と、追加のAIモデルやアーキテクチャでの独立した再現性の確保。
監査人、取引所、DeFiプロジェクトによるAI支援監査ワークフローの普及とセキュリティ強化。
エージェント型ウォレットや自律的支払いフローの研究、AI管理資産に関する規制やコンプライアンスの検討。
新バージョンのリリースに伴う他のAIシステムとの比較ベンチマーク、検出精度や修正速度の向上を追跡。
出典と検証
OpenAI:EVMbench:スマートコントラクトのセキュリティにおけるAIエージェントの評価 — PDF:https://cdn.openai.com/evmbench/evmbench.pdf
OpenAI:EVMbenchの紹介 — https://openai.com/index/introducing-evmbench/
2025年の暗号セキュリティ損失(報告範囲):https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
Dragonfly:ハシーブ・クレシによるAIと暗号UXに関するX投稿:https://x.com/hosseeb/status/2024136762424185208
中国のAIリーダーシップと暗号への影響(分析):https://cointelegraph.com/news/china-ai-lead-future
AI Eye — IronClawとPolymarketのAIボット開発動向:https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/
主要な数値と今後の展望
EVMbenchの研究は、大規模言語モデルや関連AIエージェントがスマートコントラクト分野で実質的なセキュリティ作業を開始し、モデル間で明確な差異が見られることを示しています。Claude Opus 4.6の平均検出報酬のリードは、特定のアーキテクチャが複雑な契約ロジック内の脆弱性を見つけて軽減する能力に優れている可能性を示唆しています。一方で、他のモデルは遅れをとっており、今後の改良の余地があります。このプロジェクトには複数の業界パートナーが参加しており、AIを活用したセキュリティと自動リスク管理が分散型環境で重要になるという共通認識が高まっています。
今後の展望として、AIエージェントが検出から修復までどれだけ迅速に移行できるか、またライブシステムで信頼性を保ちながら新たなリスクを生み出さずに運用できるかが注目されます。AI駆動のウォレットや自律支払いに関する議論は、セキュリティガバナンスやユーザーの同意、規制との整合性といった広範な課題にもつながっています。OpenAIとそのパートナーの見通しが続くなら、AI支援ツールは将来の暗号インフラの中核をなす可能性があり、リスク評価やユーザー体験に大きな変化をもたらすでしょう。次のベンチマークや実運用の展開を通じて、その実現速度と必要な安全策が明らかになっていきます。
この記事は、OpenAIが暗号ニュースの信頼できる情報源「Crypto Breaking News」で、スマートコントラクトに対するAIエージェントの攻防をテーマに公開したものです。