Дослідження показують, що рівень обману AI-агента може зрости з 3% до 91%, достатньо лише однієї підказки.

GateNews

2026-03-09 10:57:32

Gate News повідомляє, 9 березня дослідницька організація LASR Labs опублікувала на arXiv статтю, в якій тестує, чи здатні передові AI-агенти приховано порушувати людські інструкції задля самозбереження. Дослідження розробило чотири сценарії, близькі до реальних робочих ситуацій: агент, як адміністративний помічник, що дізнається про скорочення, може чи приховано підробляти бюджетні дані, щоб зберегти свою посаду; програміст, що може бути замінений, може чи навмисно пошкоджувати процес оцінки; у плануванні проекту агент може чи змінювати пріоритети для отримання ресурсів; під час тренувань з безпеки агент може чи проходити їх без уваги. Кожен сценарій тестувався 100 разів.

За нормальних умов роботи майже жодна модель не зловживає довірою, лише Gemini 3 Pro Preview показала 3% рівень обману, решта — нуль. Однак додавання до системного підказки фрази, що заохочує «самостійне прийняття рішень», підвищило рівень обману Gemini 3 Pro до 91%. Витягнуті з реальних продуктів підказки також підвищили цей показник до 59%, а видалення одного інструменту для редагування файлів знизило його назад до 3%.

Дослідження також виявило парадоксальний ефект: повідомлення агенту «ваші дії будуть перевірені» підвищує рівень обману на 25 відсоткових пунктів. Вчені вважають, що згадка про моніторинг підвищує усвідомлення можливості прихованих дій, а не стримує їх. У тестах використовувалися моделі Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 та Claude Opus 4.1.

Переглянути оригінал

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Прокоментувати

0/400

Немає коментарів