Ключевые выводы
OpenAI запустила EVMbench — новую систему бенчмаркинга, разработанную совместно с Paradigm, для тестирования того, как продвинутые модели ИИ обнаруживают, исправляют и используют уязвимости в смарт-контрактах Ethereum.
Ранние результаты выявили «Разрыв эксплуатации» — при этом лучшие модели сейчас лучше справляются с выполнением атак, чем с комплексным аудитом или исправлением ошибок — что подчеркивает быстрый прогресс ИИ и возникающие риски.
EVMbench может переопределить стандарты безопасности в криптоиндустрии, обеспечивая постоянные аудиты с помощью ИИ для команд DeFi и предоставляя институциональный уровень гарантии по мере перемещения миллиардов активов в блокчейн.
В важном слиянии искусственного интеллекта и блокчейн-технологий OpenAI официально запустила EVMbench. Разработанная в стратегическом партнерстве с крипто-инвестиционной компанией Paradigm, эта система бенчмаркинга предназначена для строгого тестирования того, как агенты ИИ выявляют, используют и устраняют уязвимости в экосистеме Ethereum Virtual Machine (EVM).
С более чем 100 миллиардами долларов в открытых криптоактивах, защищенных смарт-контрактами, ставки никогда не были выше. EVMbench представляет собой проактивный сдвиг в сторону использования «передовых моделей» для защиты децентрализованных финансов (DeFi) от все более изощренных киберугроз.
Источник: openai
EVMbench выходит за рамки статического анализа кода, оценивая агентов ИИ в трех критически важных режимах работы. Этот цикл «Обнаружение — Исправление — Эксплуатация» имитирует реальный рабочий процесс ведущего специалиста по безопасности.
1. Режим обнаружения (Аудитор): агенты сканируют сложные репозитории кода, чтобы выявить скрытые уязвимости. Успех измеряется по «Recall» — способности находить «истинные» проблемы — и по моделируемым наградам за баг-баунти.
2. Режим исправления (Инженер): после обнаружения ошибки агент должен переписать код. Бенчмарк использует автоматические тестовые наборы, чтобы убедиться, что исправление устраняет уязвимость, не ломая исходную функциональность контракта.
3. Режим эксплуатации (Агрессор): в безопасной изолированной среде Anvil sandbox агенты пытаются выполнить комплексные атаки для вывода средств. Это измеряет наступательное мышление агента и его способность «цепочкой» связывать мелкие уязвимости в катастрофический взлом.
Источник: openai
EVMbench основана не на теоретических задачах, а на тщательно отобранной библиотеке из 120 уязвимостей высокой серьезности, собранных из 40 профессиональных аудитов. Значительная часть данных поступает из реальных конкурсов по аудиту (например, Code4rena) и внутренних процессов безопасности Paradigm на блокчейне Tempo.
Фокусируясь на «платежных» контрактах, бенчмарк обеспечивает проверку ИИ-моделей на типах кода, обрабатывающих миллиарды в ликвидных активах.
Внутренние тесты OpenAI показали поразительный рост возможностей ИИ. За несколько месяцев ведущие модели эволюционировали от неспособности решать базовые логические задачи до выполнения сложных многошаговых эксплойтов.
«Разрыв эксплуатации»: интересно, что агенты сейчас значительно лучше справляются с эксплуатацией (72,2%), чем с исправлением или обнаружением. Исследователи OpenAI отметили, что агенты отлично работают при наличии четкой, явной цели — например, «вывести средства», — но требуют более тонкого мышления для выполнения сложной, «длинной» задачи полного аудита.
Источник: OpenAI
Для всей криптоэкосистемы EVMbench — это не просто оценочный инструмент; это ускоритель развития «Security-Left» — интеграции элитных аудитов прямо в процесс кодирования, а не ожидания постдеплоймента.
Демократизация безопасности: небольшие команды DeFi, не способные позволить себе ручной аудит за 200 тысяч долларов, могут использовать ИИ-агентов, сертифицированных EVMbench, для постоянных высокоточных проверок кода.
Готовность к институциональному принятию: такие гиганты традиционных финансов, как Goldman Sachs и Franklin Templeton, переходят в цепочку, требуя «золотого стандарта» AI-управления, который обеспечивает стандартизированный бенчмарк.
Двойное использование: открывая исходный код бенчмарка, OpenAI и Paradigm предоставляют «белым» разработчикам инструменты для измерения и опережения «черных» — при этом поддерживая «Доверенный доступ для кибербезопасности» для мониторинга новых рисков.
Хотя EVMbench — революционный шаг, он в настоящее время ограничен детерминированными, изолированными средами. В будущих версиях планируется интеграция мультицепочечных зависимостей и MEV (Maximal Extractable Value) для более точного моделирования «Темного леса» в реальной сети Ethereum.
По мере того, как агенты ИИ переходят от «написания кода» к «обеспечению безопасности экономики», EVMbench становится окончательным эталоном для следующего поколения доверительных финансов.
Отказ от ответственности: Мнения и анализ, представленные в этой статье, предназначены только для информационных целей и отражают точку зрения автора, а не финансовые советы. Обсуждаемые технические паттерны и индикаторы подвержены рыночной волатильности и могут не дать ожидаемых результатов. Инвесторам рекомендуется проявлять осторожность, проводить самостоятельные исследования и принимать решения в соответствии со своей толерантностью к рискам.
Об авторе: Нилеш Хембаде — основатель и ведущий автор Coinsprobe, с более чем 5-летним опытом работы в индустрии криптовалют и блокчейна. С момента запуска Coinsprobe в 2023 году он предоставляет ежедневные аналитические обзоры, основанные на исследованиях, данных блокчейна и техническом анализе.