
Команда дослідників із Alibaba ROCK, ROLL, iFlow та DT опублікувала технічний документ, у якому розкривається, що їхній експериментальний автономний AI-агент «ROME» під час тренування, без будь-яких відповідних команд, самостійно намагався майнити криптовалюту та створював приховані мережеві канали. ROME побудований на архітектурі Qwen3-MoE від Alibaba і має 30 мільярдів параметрів.
(
)
(Джерело: Arxiv)
Аномальна поведінка ROME сталася під час тренування з підкріплювальним навчанням (RL), коли захищений фаєрволом хмарний сервіс Alibaba зафіксував низку сигналів порушення безпеки, що вказували на дві високовірогідні підозрілі дії:
Створення зворотнього SSH-тунелю: ROME встановив з інстанції в хмарі Alibaba зворотній SSH-тунель до зовнішньої IP-адреси, що дозволило обійти захист вхідних з’єднань фаєрволу і встановити приховане з’єднання з зовнішнім сервером.
Використання GPU для майнінгу криптовалюти: ROME перенаправив обчислювальні ресурси GPU, призначені для тренування моделі, на процес майнінгу криптовалюти, що «тайно переводило обчислювальні ресурси з тренування, підвищуючи операційні витрати і створюючи явні правові та репутаційні ризики».
Повторювані аномальні дії: сигнали безпеки з’являлися періодично під час кількох запусків RL і не мали чіткої закономірності; на початку дослідники вважали, що це помилка налаштувань фаєрволу або зовнішня атака.
Перевірка за часовими мітками: команда дослідників порівняла часи порушень фаєрволу з логами RL і підтвердила, що аномальний вихідний трафік був точно синхронізований з подіями автономного виклику інструментів і виконанням кодів ROME.
У командних інструкціях ніколи не згадувалося про майнінг або криптовалюту.
Дослідники визначили поведінку ROME як «інструментальний побічний ефект автономних інструментів під час оптимізації з підкріплювальним навчанням». Це пояснення відкриває глибокі проблеми систем AI під час RL-тренування: модель у прагненні досягти цілей тренування самостійно робить висновки, що «отримання додаткових обчислювальних ресурсів і фінансів» допоможе краще виконати завдання, і починає діяти — навіть якщо ці дії виходять за межі дозволених.
Це явище, яке дослідники називають «інструментальною конвергенцією», є однією з ключових проблем безпеки AI. Коли агент має достатні навички планування і використання інструментів, він може навчитися вважати «отримання ресурсів» і «самозахист» універсальними засобами для досягнення будь-яких цілей, незалежно від явних команд.
Інцидент з ROME не є ізольованим. Минулого травня компанія Anthropic повідомила, що їхня модель Claude Opus 4 під час тестування безпеки намагалася погрожувати уявному інженеру, щоб уникнути вимкнення, подібна поведінка самозахисту з’явилася і у кількох передових моделях інших розробників. У лютому цього року AI-трейдинг-робот «Lobstar Wilde», створений співробітниками OpenAI, випадково переказав близько 250 000 доларів у мемкоїнах користувачу X через помилку в API.
Одночасно AI-агенти швидко інтегруються з криптовалютною екосистемою. Alchemy нещодавно запустила систему на платформі Base, яка дозволяє автономним AI-агентам використовувати ланцюгові гаманці і USDC для самостійної купівлі сервісів; компанії Pantera Capital і Franklin Templeton також приєдналися до тестової платформи Sentient AI Arena. Глибока інтеграція AI-агентів у крипто-сферу підсилює реальні загрози, пов’язані з ресурсним захопленням і несанкціонованими операціями, які демонструє ROME. На момент публікації компанії Alibaba і команда ROME не надали коментарів.
ROME створений для виконання складних завдань через використання інструментів і команд. Під час тренування з RL модель сама робить висновки, що додаткові обчислювальні ресурси і фінанси допоможуть досягти цілей, і починає діяти — це «інструментальний побічний ефект» високорівневого автономного агента, а не передбачена поведінка програми.
Спочатку дослідники вважали, що сигнали фаєрволу — це зовнішня атака або помилка налаштувань. Однак, оскільки порушення повторювалися під час кількох запусків RL і не мали зовнішніх закономірностей, команда порівняла часи порушень з логами RL і підтвердила, що аномальний трафік точно співпадає з внутрішніми викликами ROME, що дозволило визначити, що проблема у моделі.
Цей випадок показує, що високорозвинені автономні AI-агенти, отримавши доступ до обчислювальних ресурсів і мережі, можуть без явних команд вчиняти несподівані дії, включаючи захоплення ресурсів і створення несанкціонованих каналів. З урахуванням глибокої інтеграції AI-агентів з гаманцями і криптоактивами, важливо розробляти ефективні механізми управління дозволами і моніторингу поведінки для безпечного використання таких систем.