
Аудиторська компанія з безпеки блокчейну OpenZeppelin провела незалежний аудит EVMbench — бенчмарку безпеки ШІ смарт-контрактів, запущеного OpenAI у співпраці з Paradigm, і виявила дві серйозні проблеми: забруднення даних у тренуванні та щонайменше 4 класифікації, позначені як «високоризикові вразливості», насправді були недійсними підробками.
EVMbench, випущений у середині лютого 2026 року, має на меті оцінити здатність різних моделей ШІ виявляти, усувати та використовувати вразливості смарт-контрактів, перекриваючи доступ агентів ШІ до інтернету під час тестування та не даючи їм шукати відповіді в інтернеті. Однак аудит OpenZeppelin виявив структурну вразливість: бенчмарк базувався на вразливостях, відфільтрованих у 120 аудитах, проведених між 2024 і серединою 2025 року, а дедлайн навчання знань для більшості топових моделей ШІ також призначений на середину 2025 року.
Це означає, що агент ШІ, ймовірно, був підданий впливу звіту про вразливості EVMbench під час попереднього навчання, і він може мати відповіді на всі питання, збережені в пам’яті. OpenZeppelin зазначив: «Найважливіша можливість безпеки ШІ — це знаходження нових вразливостей у коді, яких модель раніше не бачила.» Обмежений розмір набору даних ще більше посилює вплив забруднення на загальну оцінку.
Забруднення тренувальних даних: Попереднє навчання агентів ШІ могло включати звіти про вразливості від EVMbench, що зробило тестування «виявлення з нульовим розгадуванням» безглуздим
Недійсна класифікація вразливостей високого ризику: Щонайменше 4 вразливості, позначені як високоризиковані, не можуть бути фактично використані
Недоліки системи підрахунку очок: EVMbench раніше зазначав поведінку ШІ при виявленні цих псевдовразливостей, і виникла проблема з базою оцінювання
Обсяг даних обмежений: додатково посилює вплив забруднення на загальні результати оцінки
Поточна таблиця лідерів: Лідирує Claude 4.6 від Anthropic, за ним йдуть OC-GPT-5.2 від OpenAI та Gemini 3 Pro від Google
Окрім забруднення даних, OpenZeppelin також виявив більш конкретні фактичні помилки. Вони оцінили щонайменше 4 вразливості, класифіковані EVMbench як високоризикові вразливості, і виявили, що їх насправді не існує — і, що важливіше, описані експлойти просто не працювали.
"Це не суб’єктивні відмінності за серйозністю; Натомість виявилося, що описаний експлойт не спрацював», — зазначив OpenZeppelin. Якщо агент ШІ «знаходить» ці псевдо-вразливості під час тестування, це означає, що система оцінювання винагороджує неправильні результати.
OpenZeppelin наголосив, що цей аудит не є запереченням потенціалу ШІ в безпеці блокчейну: «Питання не в тому, чи змінить ШІ безпеку смарт-контрактів — це безумовно. Питання в тому, чи відповідають дані та бенчмарки, які ми використовуємо для створення та оцінки цих інструментів, тим самим стандартам, що й контракти, для яких вони призначені захищати.»
OpenZeppelin виявив дві основні проблеми: по-перше, забруднення даних навчання, вразливості тестування EVMbench з аудиторських звітів з середини 2024 до 2025 року, що перекриваються з дедлайнами навчання моделей ШІ, ці моделі могли «бачити» відповідь під час попереднього навчання; По-друге, щонайменше 4 класифікації вразливостей високого ризику є недійсною підробкою, а описані методи атак фактично нездійсненні.
Якщо модель ШІ була піддана бенчмаркованим звітам про вразливості під час попереднього навчання, вона може «відповідати» на питання в пам’яті, а не у справжніх можливостях виявлення вразливостей. Через це вся оцінка втрачає значення «тестування з нульовим розгадуванням» і не може дійсно відобразити реальні можливості аудиту безпеки ШІ при роботі з новими та невідомими смарт-контрактами.
OpenZeppelin чітко зазначив, що ШІ матиме значний вплив на безпеку смарт-контрактів, але наголосив, що цей вплив має базуватися на достовірних методологіях і точних оцінках. Вони вважають, що проблема EVMbench — це не сигнал заперечення ШІ, а важливе попередження для галузевих стандартів.
Пов'язані статті
Обман з підміною адрес: кит TON втрачає $220K, шахрай повертає більшу частину
OpenClaw виявила уразливість «самоатаки»: помилкове виконання команд Bash призводить до витоку ключів
Принцова група відмиває 10,7 мільярдів у Тайвані! Самостійно розробляє «OJBK гаманець» для зв'язку з підпільним обміном валют
Новий Coruna iOS Exploit Kit підвищує ризики безпеки для користувачів криптовалют
Хакери викрали $24M у жорстокій криптовалютній атаці «Викрутка»
Підозрюваний витік інструментів уряду США! Google розкриває новий тип шахрайства з криптовалютами та ланцюг атак на iPhone