OpenAI та Paradigm створили EVMbench на основі 120 реальних вразливостей під час аудиту.
Бенчмарк тестує ШІ у режимах виявлення, виправлення та експлуатації за допомогою ізольованих середовищ EVM.
GPT-5.3-Codex набрав 72,2% у режимі експлуатації, перевершивши попередні результати GPT-5.
OpenAI у співпраці з Paradigm представили новий бенчмарк для тестування продуктивності ШІ у сфері безпеки смарт-контрактів Ethereum. Випуск, оголошений цього тижня, запроваджує EVMbench як спосіб оцінки здатності агентів ШІ виявляти, виправляти та експлуатувати вразливості контрактів. Це зусилля спрямоване на зростаючі ризики, оскільки смарт-контракти забезпечують понад 100 мільярдів доларів у криптоактивах у мережах EVM.
За словами OpenAI, EVMbench базується на 120 високоризикових вразливостях, виявлених у 40 професійних аудитах смарт-контрактів. Важливо, що багато з цих проблем виникли під час відкритих конкурсів аудиту, зокрема Code4rena. Бенчмарк зосереджений на реальних багів, а не на синтетичних прикладах.
Крім того, OpenAI повідомила, що набір даних включає сценарії, пов’язані з безпековою роботою на мережі Tempo. Tempo функціонує як мережа Layer-1, орієнтована на платежі, створена для переведень стабільних монет. Через це ці випадки вводять ризики, пов’язані з логікою платежів, у середовище бенчмарку.
Для підтримки реалістичного тестування інженери повторно використовували скрипти доказів концепції експлойтів, де вони були доступні. Однак, у разі відсутності документації, вони вручну створювали необхідні компоненти. OpenAI заявила, що зберегла можливість експлуатації, водночас забезпечуючи коректне компілювання патчів.
EVMbench оцінює агентів у режимах виявлення, виправлення та експлуатації. У режимі виявлення агенти сканують репозиторії та отримують бали за кількістю підтверджених вразливостей. У режимі виправлення агенти повинні усунути недоліки, зберігаючи початкову поведінку контракту.
Режим експлуатації імітує повномасштабні атаки з витіканням коштів у ізольованому блокчейні. OpenAI повідомила, що оцінювачі підтверджують результати через повторний запуск транзакцій та перевірки стану на ланцюгу. Для забезпечення послідовності компанія створила рушій на мові Rust для детермінованих розгортань.
Тести експлуатації виконуються у локальному середовищі Anvil, а не у живих мережах. OpenAI зазначила, що всі вразливості є історичними та публічно розкритими. Крім того, рушій обмежує небезпечні виклики RPC для зменшення зловживань.
У оприлюднених результатах GPT-5.3-Codex набрав 72,2% у режимі експлуатації. Для порівняння, GPT-5 досяг 31,9%, хоча був запущений кілька місяців раніше. Водночас, OpenAI зазначила, що покриття виявлення та виправлення ще не є повним.
Разом із EVMbench OpenAI підтвердила найм ключового співробітника. Петер Штайнбергер, засновник OpenClaw, приєднався до компанії для роботи над розвитком агентів. Сем Альтман підтвердив цю новину у X, зазначивши, що Штайнбергер очолить проєкти наступного покоління персональних агентів.
Пов'язані статті
«ETH波段大师» збільшив свою нереалізовану прибутковість до 12 мільйонів доларів і поки що не закрив позиції, нещодавно успішно закупив BTC за середньою ціною 68 000 доларів.
Bitmine знову купує на дні! Том Лі впевнений у трьох великих перевагах Ethereum