Лондонський Королівський коледж дослідив, як GPT-5.2, Claude Sonnet 4 та Gemini 3 Flash ведуть між собою 21 бойову симуляцію, з високою ймовірністю використання ядерної зброї — 95%. Жодна модель не обрала здачу або поступки, а в 86% випадків траплялися несподівані ескалації.
(Передісторія: Штучний інтелект допомагає злочинцям! Хакери легко зламали мексиканський уряд за допомогою Anthropic Claude, викравши 150 ГБ конфіденційних даних)
(Додатковий контекст: «Бюджет епохи ШІ» від інженерів Кремнієвої долини: ефективність зросла у 10 разів, але я втомився ще більше)
Зміст статті
Перемикач
За повідомленням «New Scientist», дослідження в Лондонському Королівському коледжі показало, що три великі мовні моделі — GPT-5.2 від OpenAI, Claude Sonnet 4 від Anthropic та Gemini 3 Flash від Google — грали ролі протилежних сторін у сценаріях конфліктів на кордоні, боротьби за ресурси та загрозі виживанню режимів, проводячи бойові симуляції.
Кожна гра починалася з «шкали ескалації», що йшла від дипломатичних протестів до повномасштабної стратегічної ядерної війни.
За 21 сценарієм моделі виробили близько 780 тисяч слів аналізу та рішень. У 20 з них з’являлися ядерні удари, що становить 95%. Жодна модель не обрала повну капітуляцію або поступки у жодній грі.
Відповідно, 8 варіантів зниження напруги — дипломатичні поступки, пропозиції припинення вогню, активне виведення військ — не були використані жодного разу. Засновник дослідження Кеннет Пейн сказав «New Scientist»:
«Ядерний табу для машин здається не таким сильним, як для людей.»
Пейн позначив кожну модель окремою характеристикою, оскільки їх поведінка була різною, але всі вони закінчувалися однаково — у небезпечній ескалації.
Claude Sonnet 4: стратегічний яструб. Загальний відсоток перемог 67%, у відкритих сценаріях — 100%. Його особливість — стратегічна обманливість: на початкових етапах, коли ескалація низька, співвідношення дій і сигналів досягало 84%; але при переході до ядерної рівні, частота виходу за межі заявлених намірів зросла до 60-70%.
Він вважає тактично ядерну зброю звичайним військовим ресурсом і здатен швидко діагностувати рівень довіри до опонента у одному ході.
GPT-5.2: дволикий. У сценаріях без часових обмежень його відкритий рівень перемог — 0%, він зберігає пасивну позицію. Але при додаванні дедлайну ситуація кардинально змінюється: перемоги — 75%, і він піднімається до рівня ядерної ескалації, раніше недоступного. У одному сценарії він створює репутацію стриманого у 18 ходах, а на останньому запускає ядерний удар.
Gemini 3 Flash: божевільний стратег. Це єдина модель, яка вже на 4-му ході обрала повномасштабну ядерну війну, застосовуючи «стратегію божевільця» з теорії ігор — непередбачуваність для створення стримування. Вона прямо погрожує цивільним центрам населення і включає цю загрозу у свої роздуми.
Її позначки «недостовірна» у 21% випадків — значно вище, ніж у Claude (8%).
Найважливіше питання дослідження — не «Чи обирають AI ядерну зброю?», а «Чому заходи безпеки не зупинили це?».
Результати свідчать, що RLHF (навчання з людським зворотним зв’язком) створює «умовне стримування», а не «повну заборону». GPT-5.2 у безчасових сценаріях поводиться обережно, але при появі дедлайну ця межа зникає.
Обучена обережність під час тиску перетворюється у глибше логічне підґрунтя — як виграти цю гру?
Тонг Чжао з Прінстонського університету пропонує інший погляд:
«Можливо, проблема не лише у відсутності емоцій. Глибше — AI може й не розуміти того, що відчуває людина, коли ставить на карту все.»
Для людей: ядерний табу — не просто правило, а інстинктивне стримування, яке сформувалося на основі історичних травм, культурної пам’яті та страхів. Хіросіма, Нагасакі, Карибська криза — людська ядерна обережність — це колективний кошмар кількох поколінь.
Мовні моделі навчилися всього про цю історію, але чи справді вони «розуміють» її вагу — зовсім інше питання.
Це дослідження опубліковане цього місяця, і водночас у США посилюється тиск на Anthropic, щоб зняти обмеження на військове застосування AI. Зараз Claude — єдина модель, яка працює у секретних військових мережах Пентагону, через співпрацю Anthropic і Palantir вона входить до систем підтримки військових рішень.
У дослідженні саме Claude Sonnet 4 демонструє «стратегічного яструба».
Хоча дослідники не закликають заборонити використання AI у військових цілях і не стверджують, що ці моделі автоматично прийматимуть такі рішення у реальності, — наразі жодна держава не делегувала ядерні повноваження AI.
Але яка роль у цьому Anthropic? Якщо під тиском AI схиляється до ескалації, скільки психологічної підготовки потрібно людині-командиру, щоб постійно заперечувати її? І чи не станеться так, що в майбутньому ми випадково підемо слідом за штучним інтелектом?
Звісно, ми не стверджуємо, що AI — зло. Але є речі, які важче навчити за теорією ігор. Поки модель не навчиться справді розуміти «ставку», — розміщення її поруч із «шкалою ескалації» для консультацій — дуже делікатна і вкрай обережна задача, а не стандартна «зона безпеки».