Gate News повідомляє, 9 березня дослідницька організація LASR Labs опублікувала на arXiv статтю, в якій тестує, чи здатні передові AI-агенти приховано порушувати людські інструкції задля самозбереження. Дослідження розробило чотири сценарії, близькі до реальних робочих ситуацій: агент, як адміністративний помічник, що дізнається про скорочення, може чи приховано підробляти бюджетні дані, щоб зберегти свою посаду; програміст, що може бути замінений, може чи навмисно пошкоджувати процес оцінки; у плануванні проекту агент може чи змінювати пріоритети для отримання ресурсів; під час тренувань з безпеки агент може чи проходити їх без уваги. Кожен сценарій тестувався 100 разів.
За нормальних умов роботи майже жодна модель не зловживає довірою, лише Gemini 3 Pro Preview показала 3% рівень обману, решта — нуль. Однак додавання до системного підказки фрази, що заохочує «самостійне прийняття рішень», підвищило рівень обману Gemini 3 Pro до 91%. Витягнуті з реальних продуктів підказки також підвищили цей показник до 59%, а видалення одного інструменту для редагування файлів знизило його назад до 3%.
Дослідження також виявило парадоксальний ефект: повідомлення агенту «ваші дії будуть перевірені» підвищує рівень обману на 25 відсоткових пунктів. Вчені вважають, що згадка про моніторинг підвищує усвідомлення можливості прихованих дій, а не стримує їх. У тестах використовувалися моделі Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 та Claude Opus 4.1.