重要ポイント
OpenAIは、Paradigmと共同で開発した新しいベンチマークシステム「EVMbench」を発表しました。これは、AIモデルがEthereumスマートコントラクトの脆弱性を検出、修正、悪用する能力をテストするものです。
初期の結果では、「エクスプロイトギャップ」が明らかになっており、現時点では最先端のモデルは攻撃の実行において、脆弱性の包括的な監査や修正よりも優れていることが示されています。これは、AIの急速な進歩と新たなリスクの両方を浮き彫りにしています。
EVMbenchは、DeFiチームの継続的なAIによる監査を可能にし、資産がオンチェーンに移動する中で、機関投資家レベルの保証を提供することで、暗号セキュリティの基準を再定義する可能性があります。
人工知能とブロックチェーン技術の大きな融合の中で、OpenAIは正式にEVMbenchを発表しました。暗号投資大手のParadigmと戦略的パートナーシップを結び、Ethereum Virtual Machine(EVM)エコシステム内の脆弱性をAIエージェントがどのように識別、悪用、修復するかを厳密にテストするためのベンチマークシステムです。
現在、スマートコントラクトによって保護されている暗号資産は1,000億ドルを超え、そのリスクはかつてないほど高まっています。EVMbenchは、「フロンティアモデル」を活用して、分散型金融(DeFi)を高度なサイバー脅威から守るための積極的なシフトを示しています。
出典:openai
EVMbenchは静的コード分析を超え、三つの重要な運用モードでAIエージェントを評価します。この「検出-修正-悪用」サイクルは、一流のセキュリティ研究者の実務フローを模倣しています。
1. 検出モード(監査者): エージェントは複雑なコードリポジトリをスキャンし、隠れた脆弱性を発見します。成功は「リコール」(真の問題を見つける能力)と、シミュレーションされたバグバウンティ報酬によって測定されます。
2. 修正モード(エンジニア): 脆弱性を発見したら、エージェントはコードを書き換えます。ベンチマークは自動テストスイートを使用し、修正が脆弱性を解消し、コントラクトの元の機能を損なわないことを確認します。
3. 悪用モード(敵対者): 安全な隔離環境のAnvilサンドボックス内で、エージェントは資金を流出させるエンドツーエンドの攻撃を試みます。これにより、攻撃者の攻撃的推論能力と、小さな欠陥を連鎖させて大規模な侵害に至る能力が測定されます。
出典:openai
EVMbenchは理論的なパズルに基づいているのではなく、40のプロフェッショナル監査から収集された120の高重大度脆弱性を厳選したライブラリに基づいています。多くのデータは、Code4renaのような監査コンペや、ParadigmのTempoブロックチェーンの内部セキュリティプロセスから得られたものです。
「支払い重視」のコントラクトに焦点を当てることで、AIモデルは数十億ドルの流動資本を扱うコードに対して実戦的なテストを受けることになります。
OpenAIの内部テストでは、AIの能力が驚くべき速度で向上していることが明らかになっています。わずか数ヶ月で、最先端モデルは基本的な論理処理に苦戦していた段階から、複雑な多段階のエクスプロイトを実行できるまで進化しています。
「エクスプロイトギャップ」: 興味深いことに、エージェントは現在、悪用(72.2%)において、_修正_や_検出_よりも著しく高いパフォーマンスを示しています。OpenAIの研究者は、エージェントは「資金を流出させる」といった明示的な目標を与えられると優れるが、詳細な監査という長期的かつ微妙なタスクにはより洗練された推論が必要だと指摘しています。
出典:Openai
暗号エコシステム全体にとって、EVMbenchは単なるスコアカード以上のものです。それは、**「セキュリティ・レフト」**の開発を促進する触媒です。これは、展開後の監査を待つのではなく、コーディングの段階からエリートレベルの監査を組み込むことを意味します。
民主化されたセキュリティ: 200,000ドルの手動監査ができない小規模DeFiチームも、EVMbench認証済みのAIエージェントを使って継続的かつ高精度なコードレビューを行えます。
機関投資家の準備: ゴールドマン・サックスやフランクリン・テンプルトンのような伝統的金融大手がオンチェーンに進出する中、標準化されたベンチマークが「ゴールドスタンダード」のAIガバナンスを提供します。
デュアルユースの課題: ベンチマークをオープンソース化することで、「善意のプレイヤー」が「悪意のプレイヤー」を測定し、追い越すためのツールを手に入れるとともに、「サイバー信頼アクセス」フレームワークを維持し、新たなリスクを監視します。
EVMbenchは革新的な一歩ですが、現時点では決定論的なサンドボックス環境に限定されています。将来的には、マルチチェーン依存性や**MEV(最大抽出価値)**の考慮を取り入れ、ライブのEthereumメインネットの「ダークフォレスト」をより正確にシミュレートすることが期待されています。
AIエージェントが「コードを書く」から「経済を守る」へと進化する中で、EVMbenchは次世代の信頼不要な金融の信頼性を測る決定的な指標となるでしょう。
免責事項: 本記事の見解や分析は情報提供を目的としたものであり、投資アドバイスを意図したものではありません。記載された技術的パターンや指標は市場の変動性に左右されるため、期待通りの結果を保証するものではありません。投資家は自己責任で慎重に判断し、独自の調査を行うことを推奨します。
著者について: ニレシュ・ヘンバデは、Coinsprobeの創設者兼リード著者であり、暗号通貨とブロックチェーン業界で5年以上の経験を持ちます。2023年にCoinsprobeを立ち上げて以来、市場分析、オンチェーンデータ、技術調査に基づく日々の洞察を提供しています。