Ключові висновки
OpenAI запустила EVMbench — нову систему бенчмаркінгу, розроблену спільно з Paradigm для тестування здатності передових моделей штучного інтелекту виявляти, виправляти та використовувати вразливості в смарт-контрактах Ethereum.
Перші результати показують “Розрив у експлойтах”: найкращі моделі наразі краще виконують атаки, ніж всебічно аналізують або виправляють помилки — що підкреслює швидкий прогрес ШІ та зростаючі ризики.
EVMbench може змінити стандарти безпеки у криптоіндустрії, забезпечуючи безперервний аудит за допомогою ШІ для команд DeFi та надаючи інституційний рівень гарантій, оскільки на блокчейн переходять мільярди активів.
У важливому злитті штучного інтелекту та технологій блокчейн OpenAI офіційно запустила EVMbench. Розроблений у стратегічному партнерстві з гігантом криптоінвестицій Paradigm, цей бенчмарк-система створена для ретельного тестування здатності ШІ-агентів виявляти, використовувати та усувати вразливості в екосистемі Ethereum Virtual Machine (EVM).
З понад 100 мільярдами доларів у відкритих криптоактивах, захищених смарт-контрактами, ставки ніколи не були вищими. EVMbench є проактивним кроком у напрямку використання “фронтір-моделей” для захисту децентралізованих фінансів (DeFi) від все більш витончених кіберзагроз.
Джерело: openai
EVMbench виходить за межі статичного аналізу коду, оцінюючи ШІ-агентів у трьох високоризикових режимах роботи. Цикл “Виявлення-Виправлення-Використання” імітує реальний робочий процес провідного фахівця з безпеки.
1. Режим виявлення (Аудитор): Агент сканує складні репозиторії коду, щоб знайти приховані вразливості. Успіх вимірюється за показником “Recall” — здатністю знаходити “правдиві” проблеми — та симульованими нагородами за баг-баунті.
2. Режим виправлення (Інженер): Після виявлення помилки агент переписує код. Бенчмарк використовує автоматизовані тестові комплекти, щоб переконатися, що виправлення усуває вразливість і не порушує функціональність контракту.
3. Режим використання (Агресор): У безпечній ізольованій пісочниці Anvil агенти намагаються виконати повномасштабні атаки для виведення коштів. Це оцінює наступальне мислення агента та його здатність “з’єднувати” дрібні помилки у катастрофічний прорив.
Джерело: openai
EVMbench базується не на теоретичних головоломках, а на ретельно відібраній бібліотеці з 120 високоризикових вразливостей, зібраних із 40 професійних аудитів. Більша частина даних походить із реальних конкурсів аудитів (наприклад, Code4rena) та внутрішніх процесів безпеки Paradigm у блокчейні Tempo.
Зосереджуючись на “платіжних” контрактах, бенчмарк гарантує, що моделі ШІ проходять випробування на коді, що обробля мільярди вільних капіталів.
Внутрішні тести OpenAI показали вражаюче прискорення можливостей ШІ. За кілька місяців провідні моделі пройшли шлях від базових логічних задач до виконання складних багатоступеневих експлойтів.
“Розрив у експлойтах”: Цікаво, що агенти наразі значно краще виконують експлуатацію (72,2%), ніж виявлення або виправлення. Дослідники OpenAI зазначають, що агенти чудово справляються з чіткою, явно поставленою метою — наприклад, “зняти кошти”, — але потребують більш тонкого мислення для складних, довготривалих аудитів.
Джерело: Openai
Для ширшої криптоекосистеми EVMbench — це не просто оцінка, а прискорювач розвитку “Security-Left” — інтеграції висококласного аудиту безпосередньо у процес кодування, а не після розгортання.
Демократизація безпеки: Малі команди DeFi, які не можуть дозволити собі ручний аудит за 200 тис. доларів, можуть використовувати ШІ-агенти, сертифіковані EVMbench, для безперервних високоточних перевірок коду.
Інституційна готовність: Оскільки традиційні фінансові гіганти, такі як Goldman Sachs і Franklin Templeton, переходять у блокчейн, їм потрібен “золотий стандарт” управління ШІ, який забезпечує стандартизований бенчмарк.
Двонапрямна проблема: Відкриваючи доступ до бенчмарку, OpenAI і Paradigm дають “хорошим хлопцям” інструменти для вимірювання та перевищення “поганих”, водночас підтримуючи рамки “Довіреного доступу для кібербезпеки” для моніторингу нових ризиків.
Хоча EVMbench є революційним кроком, наразі він обмежений детермінованими, ізольованими середовищами. У майбутніх версіях очікується інтеграція мульти-ланцюгових залежностей та врахування MEV (Maximal Extractable Value) для більш точного моделювання “Темного лісу” живого Ethereum.
Якщо ШІ-агенти перейдуть від “писання коду” до “захисту економік,” EVMbench стане головним орієнтиром для наступного покоління безпечних фінансів без довіри.
Застереження: Усі думки та аналізи, викладені в цій статті, є суто інформаційними і не слугують фінансовою порадою. Технічні моделі та індикатори можуть бути під впливом ринкової волатильності і не гарантують очікуваних результатів. Інвесторам рекомендується проявляти обережність, проводити незалежне дослідження та приймати рішення відповідно до власної толерантності до ризику.
Про автора: Нілеш Хембаде — засновник і головний автор Coinsprobe, має понад 5 років досвіду у криптовалютній та блокчейн-індустрії. З моменту запуску Coinsprobe у 2023 році він щодня надає аналітичні огляди, дослідження на основі ринку, дані з блокчейну та технічний аналіз.