OpenAI представила рамкову платформу для бенчмаркінгу, спрямовану на вимірювання ефективності AI-агентів у виявленні, усуненні та навіть експлуатації вразливостей у крипто-розумних контрактах. Проєкт під назвою «EVMbench: оцінка AI-агентів у безпеці смарт-контрактів» був випущений у співпраці з Paradigm та OtterSec, двома організаціями з глибоким досвідом у галузі безпеки блокчейну та інвестицій. Дослідження оцінює AI-агентів за допомогою відібраного набору з 120 потенційних вразливостей, взятих із 40 аудитів смарт-контрактів, прагнучи не лише кількісно визначити їх здатність до виявлення та виправлення, а й теоретичний потенціал експлуатації цих агентів у контрольованому середовищі.
Ключові висновки
EVMbench тестує AI-агентів на 120 вразливостях, відібраних із 40 аудитів смарт-контрактів, з особливим акцентом на вразливості, отримані з відкритих конкурсів аудиту.
Серед протестованих моделей лідером став Claude Opus 4.6 від Anthropic із середнім показником виявлення у $37 824, за ним йдуть OC-GPT-5.2 від OpenAI із $31 623 та Gemini 3 Pro від Google із $25 112.
OpenAI позиціонує цей бенчмарк як крок до вимірювання продуктивності AI у «економічно значущих середовищах», а не лише у тестових задачах, підкреслюючи реальні наслідки для зловмисників і захисників у сфері крипто-безпеки.
Дослідники зазначають, що смарт-контракти забезпечують активи на мільярди доларів, що підкреслює стратегічну цінність інструментів з підтримкою AI для як наступальних, так і оборонних дій.
Галузеві спостерігачі пов’язують ці розробки із ширшими дискусіями щодо платежів на основі AI та ролі стабільних монет у щоденних транзакціях, при цьому провідні керівники прогнозують зростаюче використання агентних систем у найближчі роки.
Контекст такої роботи підкреслюється даними про інциденти у сфері крипто-безпеки 2025 року, які показують постійний потік коштів через вразливості та атаки, що підсилює потребу у надійних інструментах для аудиту та швидкого виправлення.
Нагороди за виявлення для AI-агентів детально описані у PDF-документі OpenAI, що супроводжує дослідження, а також містить методологію оцінювання та сценарії моделювання реальних ризиків смарт-контрактів. Автори наголошують, що хоча AI-агенти вже пройшли еволюцію у автоматизації широкого спектру рутинних задач, оцінка їхньої продуктивності у «економічно значущих середовищах» є ключовою для розуміння їхньої роботи під тиском у виробничих системах.
«Смарт-контракти забезпечують активи на мільярди доларів, і AI-агенти, ймовірно, стануть трансформативними для як зловмисників, так і захисників.»
OpenAI зазначає, що очікує розширення застосування агентних технологій у сферах платежів і розрахунків, включаючи використання стабільних монет у автоматизованих робочих процесах. Обговорення AI-інструментів для платежів виходить за межі тестування безпеки і стосується ширших питань щодо ролі автономних систем у щоденних фінансових операціях. Власні прогнози компанії свідчать, що агентські платежі можуть стати більш поширеними, закладаючи AI у практичне застосування, яке торкається щоденних транзакцій споживачів.
У поєднанні з результатами бенчмарку, CEO Circle Джеремі Аллері публічно спрогнозував, що протягом наступних п’яти років мільярди AI-агентів зможуть здійснювати транзакції з стабільними монетами для щоденних платежів. Ця точка зору співпадає з поширеною темою у крипто-спільноті: потенціал криптовалют стати рідною валютою для AI-агентів, що привернуло значну увагу з боку лідерів галузі та інвесторів. Хоча такі прогнози залишаються спекулятивними, очевидний тренд — автоматизація на базі AI переходить із лабораторії до рівня транзакцій, потенційно змінюючи спосіб переміщення цінностей у мережах.
Дослідження виходить у час, коли безпека у сфері крипто залишається значним ризиком для інвесторів. Дані про атаки на криптофонди у 2025 році, коли зловмисники вивели близько 3,4 мільярда доларів, підкреслюють необхідність у вдосконалених інструментах і швидких, надійних механізмах виправлення. Рамкова платформа EVMbench частково позиціонується як спосіб визначити, чи можуть AI-агенти суттєво сприяти оборонним можливостям у масштабі, зменшуючи можливості для експлуатації та прискорюючи реагування на загрози.
Для створення бенчмарку дослідники використали 120 відібраних вразливостей із 40 аудитів смарт-контрактів, багато з яких походять із відкритих конкурсів аудиту. OpenAI стверджує, що цей бенчмарк допоможе відстежувати прогрес AI у розпізнаванні та усуненні вразливостей на рівні контрактів у масштабі, пропонуючи стандартизований спосіб порівняння майбутніх моделей AI у процесі їхнього розвитку. Також дослідження дає уявлення про можливості застосування AI для нормалізації оцінки ризиків у різних архітектурах смарт-контрактів, а не лише у ізольованих випадках.
Смарт-контракти створювалися не для людей: Dragonfly
У сучасній дискусії на X, Хасіб Курашій, партнер Dragonfly, висловив думку, що обіцянка крипто щодо заміни прав власності та традиційних контрактів так і не реалізувалася не через провал технології, а через те, що вона ніколи не була розроблена з урахуванням людської інтуїції. Він підкреслює постійну тривогу щодо підписання великих транзакцій у середовищі, де залишаються постійні загрози з боку крадіжок з гаманців та інших векторів атак, що суттєво відрізняється від більш плавного досвіду традиційних банківських переказів.
Курашій стверджує, що наступна фаза крипто-транзакцій може бути забезпечена за допомогою AI-інтермедіатів — самоврядних гаманців, які контролюватимуть ризики, керуватимуть складними операціями та автоматично реагуватимуть на загрози від імені користувачів, зменшуючи тертя та страх, що супроводжують великі перекази сьогодні.
«Технологія часто стає на місце, коли її доповнення нарешті з’являється. GPS довелося чекати смартфона, TCP/IP — браузера. Для крипто, можливо, ми вже знайшли її у AI-агентах.»
Загальний висновок цього потоку думок полягає в тому, що AI-агенти можуть відігравати ключову роль у трансформації взаємодії людей із крипто — від ручних, схильних до помилок транзакцій до автоматизованих, з урахуванням ризиків процесів, що здатні масштабуватися з ростом adoption. Зі зростанням компетентності AI-агентів у питаннях безпеки, користувачі можуть отримати підвищену надійність і стійкість у децентралізованих фінансових процесах, навіть при подальшому розвитку технологій.
Що слід спостерігати далі
Публікація та незалежне відтворення повного набору даних EVMbench на додаткових моделях і архітектурах AI.
Ширше впровадження AI-підтримуваних робочих процесів аудиту з боку аудиторів, бірж і DeFi-проектів для підсилення безпеки.
Дослідження агентних гаманців і автономних платіжних потоків, включаючи регуляторні та нормативні питання щодо управління AI-активами.
Наступні бенчмарки з порівнянням нових версій AI-систем, що відстежують покращення у точності виявлення та швидкості виправлення.
Джерела та перевірка
OpenAI: EVMbench: оцінка AI-агентів у безпеці смарт-контрактів — PDF: https://cdn.openai.com/evmbench/evmbench.pdf
OpenAI: Представлення EVMbench — https://openai.com/index/introducing-evmbench/
Втрати у сфері крипто-безпеки у 2025 році (звіти): https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
Dragonfly: Хасіб Курашій про AI і UX у крипто (X-пост): https://x.com/hosseeb/status/2024136762424185208
Аналіз ролі AI у Китаї та крипто-наслідки: https://cointelegraph.com/news/china-ai-lead-future
AI Eye — розвиток IronClaw та AI-ботів у Polymarket: https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/
Ключові цифри та подальші кроки
Дослідження EVMbench демонструє, що великі мовні моделі та відповідні AI-агенти вже починають виконувати значущу безпекову роботу у сфері смарт-контрактів із чітко вимірюваними відмінностями між моделями. Лідерство Claude Opus 4.6 у середніх показниках виявлення сигналізує, що деякі архітектури можуть бути більш здатними до виявлення та усунення вразливостей у складній логіці контрактів, тоді як інші поступаються, пропонуючи спектр можливостей, які дослідники, ймовірно, захочуть удосконалювати. Включення кількох партнерств у проєкт підкреслює зростаючу згоду щодо того, що AI-інструменти для безпеки та автоматизованого управління ризиками можуть стати необхідністю для масштабування у децентралізованих середовищах.
Зі зростанням технологій спостерігачі слідкуватимуть за тим, наскільки швидко AI-агенти зможуть перейти від виявлення до усунення проблем, і чи зможуть вони надійно працювати у реальних системах без створення нових ризиків. Обговорення AI-гаманців і автономних платежів торкається ширших питань безпеки, управління користувацькою згодою та нормативного регулювання. Якщо тенденція, яку пророкує OpenAI та її партнери, триватиме, інструменти з підтримкою AI можуть стати ключовим компонентом майбутньої криптоінфраструктури, змінюючи як рівень ризиків, так і користувацький досвід у значущих масштабах. Наступний раунд бенчмарків і реальні впровадження допоможуть визначити швидкість реалізації цієї концепції та необхідні заходи безпеки.