OpenAIとParadigmがEthereumセキュリティ向けのEVMbenchをリリース

ETH5.34%
  • OpenAIとParadigmは、120の実際の監査脆弱性からEVMbenchを構築しました。

  • ベンチマークは、サンドボックス化されたEVM環境を使用して、検出、修正、悪用の各モードでAIを評価します。

  • GPT-5.3-Codexは、悪用モードで72.2%のスコアを記録し、以前のGPT-5の結果を上回りました。

OpenAIは、Paradigmと協力して、Ethereumスマートコントラクトのセキュリティに関するAIの性能をテストする新しいベンチマークを発表しました。今週発表されたこのリリースでは、AIエージェントがコントラクトの欠陥を検出、修正、悪用する能力を測定するためのEVMbenchを導入しています。この取り組みは、EVMネットワーク上で1000億ドルを超える暗号資産を保護するスマートコントラクトのリスク増加に対応するものです。

実際の監査失敗から構築されたベンチマーク

OpenAIによると、EVMbenchは、40件のプロフェッショナルなスマートコントラクト監査で特定された120の高重大度脆弱性に基づいています。特に、多くの問題はCode4renaを含むオープン監査コンペティションから発生したものです。ベンチマークは、合成例ではなく実際のバグに焦点を当てています。

さらに、OpenAIは、このデータセットにTempoチェーンのセキュリティ作業に関連するシナリオも含まれていると述べました。Tempoは、ステーブルコインの送金に特化したLayer-1ネットワークとして運用されています。そのため、これらのケースは支払いロジックのリスクをベンチマーク環境に導入しています。

現実的なテストをサポートするために、エンジニアは利用可能な場合、悪用の証明スクリプトを再利用しました。ただし、ドキュメントが不完全な場合は手動で欠落部分を構築しました。OpenAIは、修正が正しくコンパイルできることを保証しつつ、悪用可能性を維持したと述べています。

3つのテストモードでAIエージェントを厳しく評価

EVMbenchは、検出、修正、悪用の各モードでエージェントを評価します。検出モードでは、エージェントはリポジトリをスキャンし、確認された脆弱性のリコールに基づいてスコアを受け取ります。修正モードでは、エージェントは元のコントラクトの動作を維持しながら欠陥を修正しなければなりません。

しかし、悪用モードでは、サンドボックスブロックチェーン内で完全な資金流出攻撃をシミュレートします。OpenAIは、採点者がトランザクションのリプレイやオンチェーンの状態確認を通じて結果を確認すると述べています。一貫性を確保するために、同社は決定論的な展開を可能にするRustベースのハーネスも構築しました。

悪用テストは、ライブネットワークではなくローカルのAnvil環境で実行されます。OpenAIは、すべての脆弱性は過去のものであり、公開されていると指摘しています。また、ハーネスは不正なRPC呼び出しを制限し、不正使用を防止しています。

結果とチームの拡大

報告された結果では、GPT-5.3-Codexは悪用モードで72.2%のスコアを達成しました。比較として、GPT-5は31.9%に達しており、数か月前にリリースされたにもかかわらず、かなり低い結果です。ただし、OpenAIは検出と修正のカバレッジはまだ不完全であると述べています。

EVMbenchに加えて、OpenAIは重要な採用も発表しました。OpenClawの創設者であるピーター・スタインバーガーが、エージェント開発のために同社に参加しました。サム・オルトマンはX上でこの動きを確認し、スタインバーガーが次世代のパーソナルエージェントプロジェクトをリードすると述べました。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

イーサリアムのアクティブアドレスが1ヶ月で47%急落、ネットワーク活動の活発化が新たな懸念を呼ぶ

オンチェーンデータによると、3月4日から26日にかけて、Ethereumアドレスの総数は約111万から約59万3千に減少し、1か月で約47%の減少を示しています。これはアクティブユーザーアカウントの激しい減少であり、警戒すべき兆候と考えられます。

BlockChainReporter9分前

なぜVitalikは今、イーサリアムが「サンクチュアリ・テック」を構築すべきだと述べているのか

_Vitalik Buterinは、イーサリアムが「聖域技術」へ焦点を移し、変化する世界の中で自由、プライバシー、デジタルライフを守る必要があると述べています。_ イーサリアムのVitalik Buterinは、暗号コミュニティに向けてメッセージを送っています。彼はイーサリアムが金融支配を追い求めるのをやめ、「聖域」と呼ばれるものを構築し始めるべきだと考えています。

LiveBTCNews2時間前

データ:ETHが1,975ドルを下回った場合、主要なCEXのロングポジションの清算強度は9.32億ドルに達する

ChainCatcher のメッセージによると、Coinglass のデータによれば、ETH が 1,975 ドルを下回ると、主要な CEX の累積ショートポジションの清算強度は 9.32 億ドルに達します。逆に、ETH が 2,180 ドルを突破すると、主要な CEX の累積ロングポジションの清算強度は 4.96 億ドルに達します。

GateNews3時間前

機関投資家、ステーキングが過去最高を記録し、イーサリアムに復帰

金融市場はペルシャ湾の石油・ガスインフラへの攻撃を受けて動揺していますが、機関投資家は暗号通貨への早期の回帰の兆しを見せています。 DailyCoinは昨日、Ethereum (ETH)およびBitcoin (BTC)のETFに対する資本の関心の再燃について報じました。

DailyCoin3時間前
コメント
0/400
コメントなし