OpenAI представила систему оценки, предназначенную для измерения эффективности AI-агентов в обнаружении, устранении и даже использовании уязвимостей в безопасности криптоумных контрактов. Проект под названием «EVMbench: оценка AI-агентов в области безопасности умных контрактов» был выпущен в сотрудничестве с Paradigm и OtterSec, двумя организациями с глубоким опытом в области безопасности блокчейнов и инвестиций. Исследование оценивает AI-агентов по специально отобранному набору из 120 потенциальных уязвимостей, взятых из 40 аудитов умных контрактов, стремясь не только количественно определить их возможности обнаружения и исправления, но и теоретический потенциал эксплуатации этих уязвимостей в контролируемых условиях.
Ключевые выводы
EVMbench тестирует AI-агентов на 120 уязвимостях, отобранных из 40 аудитов умных контрактов, с особым вниманием к уязвимостям, выявленным в рамках открытых конкурсов по аудиту.
Среди протестированных моделей лидером стал Claude Opus 4.6 от Anthropic с средним показателем обнаружения в $37 824, за ним следуют OC-GPT-5.2 от OpenAI с $31 623 и Gemini 3 Pro от Google с $25 112.
OpenAI позиционирует этот бенчмарк как шаг к измерению эффективности ИИ в «экономически значимых средах», а не только в игрушечных задачах, подчеркивая реальные последствия для злоумышленников и защитников в сфере крипто-безопасности.
Исследователи отмечают, что умные контракты обеспечивают безопасность активов на сумму миллиардов долларов, что подчеркивает стратегическую важность инструментов с поддержкой ИИ для как наступательных, так и оборонительных целей.
Индустриальные аналитики связывают эти разработки с более широкими дискуссиями о платежах на базе ИИ и роли стейблкоинов в повседневных транзакциях, при этом крупные руководители прогнозируют рост использования агентов в ближайшие годы.
Контекст таких исследований подчеркивается данными о инцидентах в области крипто-безопасности за 2025 год, показывающими продолжающийся поток средств через уязвимости и атаки, что усиливает необходимость в надежных инструментах аудита и быстром исправлении уязвимостей.
Награды за обнаружение уязвимостей AI-агентами подробно описаны в PDF-отчете OpenAI, сопровождающем исследование, где также изложена методология оценки и сценарии моделирования реальных рисков умных контрактов. Авторы подчеркивают, что хотя AI-агенты уже развиты для автоматизации широкого спектра рутинных задач, оценка их эффективности в «экономически значимых средах» важна для понимания их поведения под давлением в производственных системах.
«Умные контракты обеспечивают безопасность активов на сумму миллиардов долларов, и AI-агенты, вероятно, станут трансформирующими для как злоумышленников, так и защитников.»
OpenAI отмечает, что ожидает расширения применения технологий с участием агентов в области платежей и расчетов, включая использование стейблкоинов в автоматизированных рабочих процессах. Обсуждение AI-обеспеченных платежей выходит за рамки тестирования безопасности и касается более широкой темы участия автономных систем в повседневных финансовых операциях. Собственные прогнозы компании предполагают, что агентные платежи могут стать более распространенными, основываясь на практических сценариях использования, затрагивающих повседневные транзакции потребителей.
Вместе с результатами бенчмарка генеральный директор Circle Джереми Аллэр публично заявил, что в течение следующих пяти лет миллиарды AI-агентов смогут осуществлять транзакции с помощью стейблкоинов для повседневных платежей. Эта точка зрения пересекается с повторяющейся темой в крипто-сообществе: потенциал криптовалют стать нативной валютой для AI-агентов — нарратив, получивший заметное внимание со стороны лидеров индустрии и инвесторов. Хотя такие прогнозы остаются спекулятивными, очевиден тренд — автоматизация на базе ИИ переходит из лабораторий в транзакционный слой, что может изменить способы перемещения стоимости по сетям.
Исследование выходит в момент, когда безопасность криптовалют продолжает оставаться значительным риском для инвесторов. Данные о 2025 году, когда злоумышленники похитили около 3,4 миллиарда долларов, подчеркивают необходимость в улучшении инструментов и более быстром, надежном исправлении уязвимостей. Framework EVMbench позиционируется как инструмент для оценки того, смогут ли AI-агенты существенно повысить оборонительные возможности в масштабах, снизить возможности эксплуатации и ускорить реагирование на угрозы.
Для создания бенчмарка исследователи использовали 120 отобранных уязвимостей из 40 аудитов умных контрактов, многие из которых связаны с задачами открытых аудиторских вызовов. OpenAI утверждает, что бенчмарк поможет отслеживать прогресс AI в распознавании и устранении уязвимостей на уровне контрактов в масштабах, предоставляя стандартизированный способ сравнения будущих моделей AI по мере их развития. Исследование также дает представление о том, как AI может применяться для нормализации оценки рисков в различных архитектурах умных контрактов, а не только в отдельных случаях.
Умные контракты созданы не для людей: Dragonfly
В актуальной дискуссии в X Хасиб Куреши, партнер компании Dragonfly, заявил, что обещание криптовалют заменить имущественные права и традиционные контракты так и не реализовалось не потому, что технология не работает, а потому, что она никогда не была разработана с учетом человеческой интуиции. Он подчеркнул постоянный страх, связанный с подписанием крупных транзакций в среде, где кошельки-обманщики и другие векторы атак остаются постоянной угрозой, в отличие от более гладкого опыта традиционных банковских переводов.
Куреши считает, что следующая фаза крипто-транзакций может быть реализована с помощью AI-автоматизированных, самоуправляемых кошельков. Такие кошельки будут отслеживать риски, управлять сложными операциями и автономно реагировать на угрозы от имени пользователей, что потенциально снизит трение и страх, присущие крупным переводам сегодня.
«Технология часто становится на место, когда появляется ее дополнение. GPS пришлось ждать смартфона, TCP/IP — браузера. Для крипты, возможно, мы только что нашли это в AI-агентах.»
Общий вывод этого обсуждения — AI-агенты могут сыграть ключевую роль в трансформации взаимодействия людей с криптовалютами — переходе от ручных, ошибочных транзакций к автоматизированным, риск-осознанным процессам, способным масштабироваться с ростом adoption. По мере того, как AI-агенты начинают демонстрировать все большую компетентность в вопросах безопасности, пользователи могут получить более надежные и устойчивые децентрализованные финансовые системы, даже несмотря на продолжающееся развитие технологий.
Что смотреть дальше
Публикация и независимое воспроизведение полного набора данных EVMbench на других моделях и архитектурах AI.
Расширение использования AI-поддерживаемых процессов аудита со стороны аудиторов, бирж и DeFi-проектов, стремящихся укрепить безопасность.
Исследования в области агентных кошельков и автономных платежных потоков, включая регуляторные и нормативные аспекты управления AI-активами.
Следующие бенчмарки с новыми версиями AI, отслеживающие улучшения в точности обнаружения и скорости исправления уязвимостей.
Источники и проверка информации
OpenAI: EVMbench: оценка AI-агентов в области безопасности умных контрактов — PDF: https://cdn.openai.com/evmbench/evmbench.pdf
OpenAI: Представление EVMbench — https://openai.com/index/introducing-evmbench/
Потери в области крипто-безопасности в 2025 году (отчет): https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
Dragonfly: Хасиб Куреши о AI и UX криптовалют (X-пост): https://x.com/hosseeb/status/2024136762424185208
Аналитика по лидерам AI в Китае и их влиянию на криптоиндустрию: https://cointelegraph.com/news/china-ai-lead-future
AI Eye — развитие IronClaw и AI-ботов в освещении Polymarket: https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/
Ключевые показатели и дальнейшие шаги
Исследование EVMbench показывает, что крупные языковые модели и связанные с ними AI-агенты начинают выполнять значимую работу по обеспечению безопасности в сфере умных контрактов, с явно выраженными различиями между моделями. Лидерство Claude Opus 4.6 по средним показателям обнаружения свидетельствует о том, что некоторые архитектуры могут быть более эффективными в выявлении и устранении уязвимостей в сложной логике контрактов, в то время как другие отстают, предлагая спектр возможностей, который исследователи, вероятно, захотят доработать. Включение в проект нескольких партнерств индустрии подчеркивает растущее согласие в том, что AI-обеспеченная безопасность и автоматизированное управление рисками могут стать необходимыми для масштабирования в децентрализованных средах.
По мере развития области наблюдатели будут следить за тем, как быстро AI-агенты смогут перейти от обнаружения к устранению уязвимостей и смогут ли они надежно работать в реальных системах без введения новых рисков. Обсуждение AI-кошельков и автономных платежей затрагивает более широкие вопросы безопасности, управления пользователями и нормативного соответствия. Если тенденции, обозначенные OpenAI и его партнерами, сохранятся, инструменты с поддержкой ИИ могут стать ключевым компонентом будущей инфраструктуры криптовалют, изменяя как оценку рисков, так и пользовательский опыт. Следующий раунд бенчмарков и реальные внедрения помогут определить, насколько быстро реализуется эта концепция и какие меры предосторожности необходимо принять.