OpenAI представила рамкову платформу для оцінки, яка спрямована на вимірювання ефективності AI-агентів у виявленні, усуненні та навіть експлуатації вразливостей у крипто-розумних контрактах. Проєкт під назвою «EVMbench: оцінка AI-агентів у безпеці смарт-контрактів» був випущений у співпраці з Paradigm та OtterSec, двома організаціями з глибоким досвідом у галузі безпеки блокчейну та інвестицій. Дослідження оцінює AI-агентів за допомогою відібраного набору з 120 потенційних вразливостей, взятих із 40 аудитів смарт-контрактів, прагнучи не лише кількісно оцінити здатність до виявлення та виправлення, а й теоретичний потенціал експлуатації цих агентів у контрольованому середовищі.
Ключові висновки
EVMbench тестує AI-агентів на 120 вразливостях, відібраних із 40 аудитів смарт-контрактів, з особливим акцентом на вразливості, отримані з відкритих конкурсів аудиту.
Серед протестованих моделей лідером став Claude Opus 4.6 від Anthropic із середнім показником виявлення у $37 824, за ним йде OC-GPT-5.2 від OpenAI із $31 623 та Gemini 3 Pro від Google із $25 112.
OpenAI позиціонує цей бенчмарк як крок до вимірювання продуктивності AI у «економічно значущих середовищах», а не лише у тестових задачах, підкреслюючи реальні наслідки для зловмисників і захисників у сфері крипто-безпеки.
Дослідники зазначають, що смарт-контракти забезпечують активи на мільярди доларів, що підкреслює стратегічну цінність інструментів з підтримкою AI для як наступальних, так і оборонних дій.
Галузеві спостерігачі пов’язують ці розробки із ширшими дискусіями щодо платежів на основі AI та ролі стабільних монет у щоденних транзакціях, при цьому високопосадовці прогнозують зростання використання агентних систем у найближчі роки.
Контекст такої роботи підкреслюється даними про інциденти у крипто-безпеці 2025 року, що демонструють постійний потік коштів через вразливості та атаки, що підсилює попит на надійні інструменти аудиту та швидке, надійне виправлення вразливостей.
Нагороди за виявлення для AI-агентів детально описані у PDF-файлі OpenAI, що супроводжує дослідження, а також містить методологію оцінювання та сценарії, що імітують реальні ризики смарт-контрактів. Автори наголошують, що хоча AI-агенти вже пройшли еволюцію у автоматизації широкого спектру рутинних завдань, оцінка їхньої продуктивності у «економічно значущих середовищах» є ключовою для розуміння їхньої роботи під тиском у виробничих системах.
«Смарт-контракти забезпечують активи на мільярди доларів, і AI-агенти, ймовірно, стануть трансформативними як для зловмисників, так і для захисників.»
OpenAI зазначає, що очікує розширення застосування агентних технологій у сферах платежів і розрахунків, включаючи використання стабільних монет у автоматизованих робочих процесах. Обговорення AI-інструментів для платежів виходить за межі тестування безпеки і стосується ширших питань участі автономних систем у щоденних фінансових операціях. Власні прогнози компанії свідчать, що агентські платежі можуть стати більш поширеними, закладаючи AI у практичне застосування, яке торкається щоденних транзакцій споживачів.
Разом із результатами бенчмарку, CEO Circle Джеремі Аллері публічно спрогнозував, що протягом наступних п’яти років мільярди AI-агентів зможуть здійснювати транзакції з стабільними монетами для щоденних платежів. Ця точка зору співпадає з поширеною темою у крипто-спільноті: потенціал криптовалют стати рідною валютою для AI-агентів, що привернуло значну увагу з боку лідерів галузі та інвесторів. Хоча такі прогнози залишаються спекулятивними, очевидний тренд — автоматизація на базі AI переходить із лабораторії до рівня транзакцій, потенційно змінюючи спосіб переміщення цінностей у мережах.
Дослідження виходить у час, коли безпека у крипто-сфері залишається значним ризиком для інвесторів. Дані про атаки на крипто-фонди у 2025 році, що склали близько 3,4 мільярда доларів, підкреслюють необхідність удосконалення інструментів і швидкого, надійного виправлення вразливостей. Рамкова платформа EVMbench частково позиціонується як засіб для вимірювання, чи можуть AI-агенти суттєво сприяти оборонним можливостям у масштабі, зменшуючи можливості для експлуатації та прискорюючи реагування на загрози.
Для створення бенчмарку дослідники використали 120 відібраних вразливостей із 40 аудитів смарт-контрактів, багато з яких походять із відкритих конкурсів аудиту. OpenAI стверджує, що цей бенчмарк допоможе відстежувати прогрес AI у розпізнаванні та усуненні вразливостей на рівні контрактів у масштабі, пропонуючи стандартизований спосіб порівняння майбутніх моделей AI у процесі їхнього розвитку. Також дослідження дає уявлення про можливості застосування AI для нормалізації оцінки ризиків у різних архітектурах смарт-контрактів, а не лише у ізольованих випадках.
Смарт-контракти створювалися не для людей: Dragonfly
У одночасній дискусії на X Хасіб Кураші, партнер компанії Dragonfly, висловив думку, що обіцянки крипто щодо заміни прав власності та традиційних контрактів так і не реалізувалися не через провал технології, а через те, що вона ніколи не була розроблена з урахуванням людської інтуїції. Він підкреслює постійну тривогу щодо підписання великих транзакцій у середовищі, де залишаються постійні загрози з боку крадіжок гаманців та інших векторів атак, що суттєво відрізняється від більш плавного досвіду традиційних банківських переказів.
Кураші стверджує, що наступна фаза крипто-транзакцій може бути забезпечена за допомогою AI-інтермедіатів — самоврядних гаманців, які контролюватимуть ризики, керуватимуть складними операціями та автоматично реагуватимуть на загрози від імені користувачів, зменшуючи тертя та страх, що супроводжують великі перекази сьогодні.
«Технологія часто стає на місце, коли її доповнення нарешті з’являється. GPS довелося чекати на смартфон, TCP/IP — на браузер. Для крипто, можливо, ми вже знайшли її у AI-агентах.»
Загальний висновок із цієї дискусії полягає в тому, що AI-агенти можуть відігравати ключову роль у трансформації взаємодії людей із крипто — від ручних, схильних до помилок транзакцій до автоматизованих, з урахуванням ризиків процесів, що здатні масштабуватися з ростом adoption. Зі зростанням компетентності AI-агентів у сфері безпеки, користувачі можуть отримати підвищену надійність і стійкість у децентралізованих фінансових процесах, навіть при подальшому розвитку технологій.
Що слід спостерігати далі
Публікація та незалежне відтворення повного набору даних EVMbench на додаткових моделях і архітектурах AI.
Ширше впровадження AI-підтримуваних робочих процесів аудиту з боку аудиторів, бірж і DeFi-проектів для підсилення безпеки.
Дослідження агентних гаманців і автономних платіжних потоків, включаючи регуляторні та нормативні питання щодо управління AI-активами.
Наступні бенчмарки з порівнянням нових версій AI-систем, що відстежують покращення у точності виявлення та швидкості виправлення.
Джерела та перевірка
OpenAI: EVMbench: Evaluating AI Agents on Smart Contract Security — PDF: https://cdn.openai.com/evmbench/evmbench.pdf
OpenAI: Introducing EVMbench — https://openai.com/index/introducing-evmbench/
Крипто-збитки у 2025 році (звіти): https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
Dragonfly: Хасіб Кураші про AI і UX у крипто (X-пост): https://x.com/hosseeb/status/2024136762424185208
Аналіз впливу AI у Китаї та криптоіндустрії: https://cointelegraph.com/news/china-ai-lead-future
AI Eye — розвиток IronClaw та AI-ботів у Polymarket: https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/
Ключові цифри та подальші кроки
Дослідження EVMbench демонструє, що великі мовні моделі та відповідні AI-агенти починають виконувати значущу безпекову роботу у сфері смарт-контрактів із чітко вимірюваними відмінностями між моделями. Лідерство Claude Opus 4.6 у середніх показниках виявлення сигналізує, що деякі архітектури можуть бути більш здатними до виявлення та усунення вразливостей у складній логіці контрактів, тоді як інші поступаються, пропонуючи спектр можливостей, які дослідники, ймовірно, захочуть удосконалювати. Включення кількох партнерств у проєкт підкреслює зростаючу згоду щодо того, що AI-інструменти для безпеки та автоматизованого управління ризиками можуть стати необхідними для масштабування у децентралізованих середовищах.
Зі зростанням технологій спостерігачі слідкуватимуть за тим, наскільки швидко AI-агенти зможуть перейти від виявлення до усунення проблем, і чи зможуть вони надійно працювати у реальних системах без створення нових ризиків. Обговорення AI-гаманців і автономних платежів торкається ширших питань управління безпекою, згоди користувачів і нормативного регулювання. Якщо тенденція, яку пророкує OpenAI та її партнери, триватиме, інструменти з підтримкою AI можуть стати ключовим компонентом майбутньої інфраструктури крипто, змінюючи як рівень ризиків, так і користувацький досвід у значущих масштабах. Наступний раунд бенчмарків і реальні впровадження допоможуть визначити швидкість реалізації цієї концепції та необхідні заходи безпеки.