OpenAI представила систему оценки, предназначенную для измерения эффективности AI-агентов в обнаружении, устранении и даже эксплуатации уязвимостей в криптосмарт-контрактах. Проект под названием «EVMbench: оценка AI-агентов в области безопасности смарт-контрактов» был выпущен в сотрудничестве с Paradigm и OtterSec, двумя организациями с глубоким опытом в области безопасности блокчейнов и инвестиций. Исследование оценивает AI-агентов по специально отобранному набору из 120 потенциальных уязвимостей, взятых из 40 аудитов смарт-контрактов, стремясь не только количественно определить их возможности обнаружения и исправления, но и теоретический потенциал эксплуатации этих уязвимостей в контролируемых условиях.
Ключевые выводы
EVMbench тестирует AI-агентов на 120 уязвимостях, отобранных из 40 аудитов смарт-контрактов, с особым вниманием к уязвимостям, выявленным в рамках открытых конкурсов по аудиту.
Среди протестированных моделей лидером стал Claude Opus 4.6 от Anthropic с средним показателем обнаружения в $37 824, за ним следуют OC-GPT-5.2 от OpenAI с $31 623 и Gemini 3 Pro от Google с $25 112.
OpenAI позиционирует этот бенчмарк как шаг к измерению эффективности ИИ в «экономически значимых средах», а не только в игрушечных задачах, подчеркивая реальные последствия для злоумышленников и защитников в сфере крипто-безопасности.
Исследователи отмечают, что смарт-контракты обеспечивают безопасность миллиардов долларов активов, что подчеркивает стратегическую важность инструментов на базе ИИ для как наступательных, так и оборонительных операций.
Индустриальные аналитики связывают эти разработки с более широкими дискуссиями о платежах на базе ИИ и роли стейблкоинов в повседневных транзакциях, при этом крупные руководители прогнозируют рост использования агентов в ближайшие годы.
Контекст таких исследований подчеркивается данными о инцидентах в области крипто-безопасности 2025 года, когда злоумышленники похитили примерно 3,4 миллиарда долларов, что подчеркивает необходимость улучшения инструментов и более быстрых, надежных механизмов исправления уязвимостей. Framework EVMbench позиционируется как инструмент для оценки способности AI-агентов вносить значимый вклад в масштабную защиту, снижая возможности эксплуатации и ускоряя реагирование на угрозы.
Для создания бенчмарка исследователи использовали 120 отобранных уязвимостей из 40 аудитов смарт-контрактов, многие из которых связаны с задачами открытых аудиторских конкурсов. OpenAI утверждает, что этот бенчмарк поможет отслеживать прогресс ИИ в распознавании и устранении уязвимостей на уровне контрактов, предоставляя стандартизированный способ сравнения будущих моделей по мере их развития. Также исследование освещает возможные пути применения ИИ для нормализации оценки рисков в различных архитектурах смарт-контрактов, а не только в отдельных случаях.
Смарт-контракты созданы не для людей: Dragonfly
В недавней дискуссии в X Хасиб Кураши, партнер компании Dragonfly, заявил, что обещание криптовалют заменить права собственности и традиционные контракты так и не реализовалось не потому, что технология неудачна, а потому, что она никогда не была разработана с учетом человеческой интуиции. Он подчеркнул постоянный страх, связанный с подписанием крупных транзакций в среде, где остаются угрозы от кошельков-обманщиков и других векторов атак, в отличие от более гладкого опыта традиционных банковских переводов.
Кураши считает, что следующая фаза крипто-транзакций может быть реализована с помощью AI-управляемых, самоуправляемых кошельков. Такие кошельки будут отслеживать риски, управлять сложными операциями и автономно реагировать на угрозы от имени пользователей, что потенциально снизит трение и страх, связанные с крупными переводами сегодня.
«Технология часто становится реальностью только тогда, когда появляется ее дополнение. GPS пришлось ждать смартфона, TCP/IP — браузера. Для крипты, возможно, мы только что нашли это в AI-агентах.»
Общий вывод этого обсуждения — AI-агенты могут сыграть ключевую роль в трансформации взаимодействия людей с криптовалютами — от ручных, подверженных ошибкам транзакций к автоматизированным, осознанным рисками процессам, способным масштабироваться с ростом adoption. По мере того, как AI-агенты демонстрируют все большую компетентность в вопросах безопасности, пользователи могут ожидать повышения надежности и устойчивости децентрализованных финансовых процессов, несмотря на продолжающееся развитие технологий.
Что стоит наблюдать дальше
Публикация и независимое воспроизведение полного набора данных EVMbench на других моделях и архитектурах AI.
Более широкое внедрение AI-поддерживаемых процессов аудита со стороны аудиторов, бирж и DeFi-проектов, стремящихся укрепить свою безопасность.
Исследования по агентским кошелькам и автономным платежам, включая вопросы регулирования и соответствия для управляемых AI активов.
Следующие бенчмарки с новыми версиями AI, отслеживающие улучшения в точности обнаружения и скорости исправления уязвимостей.
Источники и проверка
OpenAI: EVMbench: оценка AI-агентов в области безопасности смарт-контрактов — PDF: https://cdn.openai.com/evmbench/evmbench.pdf
OpenAI: Представление EVMbench — https://openai.com/index/introducing-evmbench/
Потери в области крипто-безопасности в 2025 году (отчет): https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
Dragonfly: Хасиб Кураши о AI и UX криптовалют (пост в X): https://x.com/hosseeb/status/2024136762424185208
Аналитика по лидерам AI и криптоимпликациям (анализ): https://cointelegraph.com/news/china-ai-lead-future
AI Eye — развитие IronClaw и AI-ботов в освещении Polymarket: https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/
Ключевые фигуры и дальнейшие шаги
Исследование EVMbench показывает, что крупные языковые модели и связанные с ними AI-агенты начинают выполнять значимую работу по обеспечению безопасности в сфере смарт-контрактов, с явно выраженными различиями между моделями. Лидерство Claude Opus 4.6 по средним показателям обнаружения свидетельствует о том, что некоторые архитектуры могут быть более эффективными в выявлении и устранении уязвимостей в сложной логике контрактов, в то время как другие отстают, предлагая спектр возможностей, который исследователи, вероятно, захотят доработать. Включение в проект нескольких партнерств от индустрии подчеркивает растущее согласие в том, что AI-обеспеченная безопасность и автоматизированное управление рисками могут стать необходимыми для масштабирования в децентрализованных средах.
По мере развития области наблюдатели будут следить за тем, как быстро AI-агенты смогут перейти от обнаружения к устранению уязвимостей и смогут ли они надежно работать в реальных системах без введения новых рисков. Обсуждение AI-кошельков и автономных платежей затрагивает более широкие вопросы безопасности, управления, согласия пользователей и регулирования. Если тенденции, обозначенные OpenAI и его партнерами, сохранятся, инструменты на базе ИИ могут стать ключевым компонентом будущей инфраструктуры криптовалют, кардинально меняя как оценку рисков, так и пользовательский опыт. Следующий раунд бенчмарков и реальные внедрения помогут понять, насколько быстро реализуется эта концепция и какие меры предосторожности необходимо принять.
Эта статья изначально публиковалась под названием «OpenAI соревнуют AI-агентов друг с другом для тестирования смарт-контрактов» на Crypto Breaking News — вашем надежном источнике новостей о криптовалютах, Bitcoin и блокчейне.