OpenAI в сотрудничестве с Paradigm представили новый бенчмарк для оценки эффективности ИИ в области безопасности смарт-контрактов Ethereum. Выпуск, анонсированный на этой неделе, включает EVMbench как инструмент для измерения способности ИИ обнаруживать, исправлять и эксплуатировать уязвимости контрактов. Эта инициатива актуальна в связи с ростом рисков, поскольку смарт-контракты обеспечивают безопасность более 100 миллиардов долларов в криптоактивах на сетях EVM.
По данным OpenAI, EVMbench основан на 120 уязвимостях высокой степени серьезности, выявленных в 40 профессиональных аудитах смарт-контрактов. Многие из этих проблем возникли в ходе открытых конкурсов по аудиту, включая Code4rena. Бенчмарк фокусируется на реальных ошибках, а не на синтетических примерах.
Кроме того, OpenAI сообщил, что в набор данных включены сценарии, связанные с безопасностью сети Tempo. Tempo функционирует как платежная Layer-1 сеть, предназначенная для переводов стейблкоинов. Поэтому эти случаи вводят в бенчмарк риски, связанные с платежной логикой.
Для реалистичного тестирования инженеры использовали готовые скрипты доказательства концепции эксплуатации, где они были доступны. В случае отсутствия документации компоненты создавались вручную. OpenAI заявил, что при этом сохранили возможность эксплуатации уязвимостей и обеспечили корректную компиляцию патчей.
EVMbench оценивает агенты в режимах обнаружения, исправления и эксплуатации. В режиме обнаружения агенты сканируют репозитории и получают оценки за полноту обнаружения подтвержденных уязвимостей. В режиме исправления агенты должны устранить недостатки, сохраняя исходное поведение контракта.
Режим эксплуатации симулирует полное исчерпание средств в песочнице блокчейна. OpenAI сообщил, что результаты проверяются через повтор транзакций и проверки состояния на блокчейне. Для обеспечения повторяемости компания создала тестовую среду на базе Rust для детерминированных развертываний.
Тесты эксплуатации выполняются в локальной среде Anvil, а не в реальных сетях. OpenAI отметил, что все уязвимости являются историческими и публично раскрытыми. Также среда ограничивает опасные RPC-запросы для предотвращения злоупотреблений.
По результатам, GPT-5.3-Codex достиг 72,2% в режиме эксплуатации. Для сравнения, GPT-5 показал 31,9%, несмотря на запуск за несколько месяцев до этого. Однако OpenAI отметил, что охват обнаружения и исправления уязвимостей еще не завершен.
В дополнение к EVMbench OpenAI подтвердили ключевое новое назначение. Питер Штайнбергер, основатель OpenClaw, присоединился к компании для работы над развитием агентов. Сэм Альтман подтвердил это в X, отметив, что Штайнбергер возглавит проекты следующего поколения персональных агентов.
Связанные статьи
Кит 0x8f01 конвертирует 650 ETH в 1.88M ASTER в транзакции на сумму 1.4 миллиона долларов
Прогноз цены Ethereum: ETH приближается к 2200 долларам, быки нацелены на важный уровень сопротивления в 2400 долларов
Владельцы криптовалюты столкнулись с насильственным ограблением на сумму 24 миллиона долларов, объявлен награду в размере 10% за возврат украденных средств