OpenAIとParadigmは、120の実際の監査脆弱性からEVMbenchを構築しました。
ベンチマークは、サンドボックス化されたEVM環境を使用して、検出、修正、悪用の各モードでAIを評価します。
GPT-5.3-Codexは、悪用モードで72.2%のスコアを記録し、以前のGPT-5の結果を上回りました。
OpenAIは、Paradigmと協力して、Ethereumスマートコントラクトのセキュリティに関するAIの性能をテストする新しいベンチマークを発表しました。今週発表されたこのリリースでは、AIエージェントがコントラクトの欠陥を検出、修正、悪用する能力を測定するためのEVMbenchを導入しています。この取り組みは、EVMネットワーク上で1000億ドルを超える暗号資産を保護するスマートコントラクトのリスク増加に対応するものです。
OpenAIによると、EVMbenchは、40件のプロフェッショナルなスマートコントラクト監査で特定された120の高重大度脆弱性に基づいています。特に、多くの問題はCode4renaを含むオープン監査コンペティションから発生したものです。ベンチマークは、合成例ではなく実際のバグに焦点を当てています。
さらに、OpenAIは、このデータセットにTempoチェーンのセキュリティ作業に関連するシナリオも含まれていると述べました。Tempoは、ステーブルコインの送金に特化したLayer-1ネットワークとして運用されています。そのため、これらのケースは支払いロジックのリスクをベンチマーク環境に導入しています。
現実的なテストをサポートするために、エンジニアは利用可能な場合、悪用の証明スクリプトを再利用しました。ただし、ドキュメントが不完全な場合は手動で欠落部分を構築しました。OpenAIは、修正が正しくコンパイルできることを保証しつつ、悪用可能性を維持したと述べています。
EVMbenchは、検出、修正、悪用の各モードでエージェントを評価します。検出モードでは、エージェントはリポジトリをスキャンし、確認された脆弱性のリコールに基づいてスコアを受け取ります。修正モードでは、エージェントは元のコントラクトの動作を維持しながら欠陥を修正しなければなりません。
しかし、悪用モードでは、サンドボックスブロックチェーン内で完全な資金流出攻撃をシミュレートします。OpenAIは、採点者がトランザクションのリプレイやオンチェーンの状態確認を通じて結果を確認すると述べています。一貫性を確保するために、同社は決定論的な展開を可能にするRustベースのハーネスも構築しました。
悪用テストは、ライブネットワークではなくローカルのAnvil環境で実行されます。OpenAIは、すべての脆弱性は過去のものであり、公開されていると指摘しています。また、ハーネスは不正なRPC呼び出しを制限し、不正使用を防止しています。
報告された結果では、GPT-5.3-Codexは悪用モードで72.2%のスコアを達成しました。比較として、GPT-5は31.9%に達しており、数か月前にリリースされたにもかかわらず、かなり低い結果です。ただし、OpenAIは検出と修正のカバレッジはまだ不完全であると述べています。
EVMbenchに加えて、OpenAIは重要な採用も発表しました。OpenClawの創設者であるピーター・スタインバーガーが、エージェント開発のために同社に参加しました。サム・オルトマンはX上でこの動きを確認し、スタインバーガーが次世代のパーソナルエージェントプロジェクトをリードすると述べました。
関連記事