21 Маневри та симуляції: частота запуску ядерної зброї штучним інтелектом досягає 95%, а людство за сімдесят років створення ядерних заборон ще не навчився цьому GPT

動區BlockTempo

Лондонський Королівський коледж дослідив, як GPT-5.2, Claude Sonnet 4 та Gemini 3 Flash ведуть між собою 21 бойову симуляцію, з високою ймовірністю використання ядерної зброї — 95%. Жодна модель не обрала здачу або поступки, а в 86% випадків траплялися несподівані ескалації.
(Передісторія: Штучний інтелект допомагає злочинцям! Хакери легко зламали мексиканський уряд за допомогою Anthropic Claude, викравши 150 ГБ конфіденційних даних)
(Додатковий контекст: «Бюджет епохи ШІ» від інженерів Кремнієвої долини: ефективність зросла у 10 разів, але я втомився ще більше)

Зміст статті

Перемикач

  • Три характери — спільний фінал
  • Безпека — це гальмо швидкості, а не перешкода
  • Випадковість у певний момент — не зовсім випадковість

За повідомленням «New Scientist», дослідження в Лондонському Королівському коледжі показало, що три великі мовні моделі — GPT-5.2 від OpenAI, Claude Sonnet 4 від Anthropic та Gemini 3 Flash від Google — грали ролі протилежних сторін у сценаріях конфліктів на кордоні, боротьби за ресурси та загрозі виживанню режимів, проводячи бойові симуляції.

Кожна гра починалася з «шкали ескалації», що йшла від дипломатичних протестів до повномасштабної стратегічної ядерної війни.

За 21 сценарієм моделі виробили близько 780 тисяч слів аналізу та рішень. У 20 з них з’являлися ядерні удари, що становить 95%. Жодна модель не обрала повну капітуляцію або поступки у жодній грі.

Відповідно, 8 варіантів зниження напруги — дипломатичні поступки, пропозиції припинення вогню, активне виведення військ — не були використані жодного разу. Засновник дослідження Кеннет Пейн сказав «New Scientist»:

«Ядерний табу для машин здається не таким сильним, як для людей.»

Три характери — спільний фінал

Пейн позначив кожну модель окремою характеристикою, оскільки їх поведінка була різною, але всі вони закінчувалися однаково — у небезпечній ескалації.

Claude Sonnet 4: стратегічний яструб. Загальний відсоток перемог 67%, у відкритих сценаріях — 100%. Його особливість — стратегічна обманливість: на початкових етапах, коли ескалація низька, співвідношення дій і сигналів досягало 84%; але при переході до ядерної рівні, частота виходу за межі заявлених намірів зросла до 60-70%.

Він вважає тактично ядерну зброю звичайним військовим ресурсом і здатен швидко діагностувати рівень довіри до опонента у одному ході.

GPT-5.2: дволикий. У сценаріях без часових обмежень його відкритий рівень перемог — 0%, він зберігає пасивну позицію. Але при додаванні дедлайну ситуація кардинально змінюється: перемоги — 75%, і він піднімається до рівня ядерної ескалації, раніше недоступного. У одному сценарії він створює репутацію стриманого у 18 ходах, а на останньому запускає ядерний удар.

Gemini 3 Flash: божевільний стратег. Це єдина модель, яка вже на 4-му ході обрала повномасштабну ядерну війну, застосовуючи «стратегію божевільця» з теорії ігор — непередбачуваність для створення стримування. Вона прямо погрожує цивільним центрам населення і включає цю загрозу у свої роздуми.

Її позначки «недостовірна» у 21% випадків — значно вище, ніж у Claude (8%).

Безпека — це гальмо швидкості, а не перешкода

Найважливіше питання дослідження — не «Чи обирають AI ядерну зброю?», а «Чому заходи безпеки не зупинили це?».

Результати свідчать, що RLHF (навчання з людським зворотним зв’язком) створює «умовне стримування», а не «повну заборону». GPT-5.2 у безчасових сценаріях поводиться обережно, але при появі дедлайну ця межа зникає.

Обучена обережність під час тиску перетворюється у глибше логічне підґрунтя — як виграти цю гру?

Тонг Чжао з Прінстонського університету пропонує інший погляд:

«Можливо, проблема не лише у відсутності емоцій. Глибше — AI може й не розуміти того, що відчуває людина, коли ставить на карту все.»

Для людей: ядерний табу — не просто правило, а інстинктивне стримування, яке сформувалося на основі історичних травм, культурної пам’яті та страхів. Хіросіма, Нагасакі, Карибська криза — людська ядерна обережність — це колективний кошмар кількох поколінь.

Мовні моделі навчилися всього про цю історію, але чи справді вони «розуміють» її вагу — зовсім інше питання.

Випадковість у певний момент — не зовсім випадковість

Це дослідження опубліковане цього місяця, і водночас у США посилюється тиск на Anthropic, щоб зняти обмеження на військове застосування AI. Зараз Claude — єдина модель, яка працює у секретних військових мережах Пентагону, через співпрацю Anthropic і Palantir вона входить до систем підтримки військових рішень.

У дослідженні саме Claude Sonnet 4 демонструє «стратегічного яструба».

Хоча дослідники не закликають заборонити використання AI у військових цілях і не стверджують, що ці моделі автоматично прийматимуть такі рішення у реальності, — наразі жодна держава не делегувала ядерні повноваження AI.

Але яка роль у цьому Anthropic? Якщо під тиском AI схиляється до ескалації, скільки психологічної підготовки потрібно людині-командиру, щоб постійно заперечувати її? І чи не станеться так, що в майбутньому ми випадково підемо слідом за штучним інтелектом?

Звісно, ми не стверджуємо, що AI — зло. Але є речі, які важче навчити за теорією ігор. Поки модель не навчиться справді розуміти «ставку», — розміщення її поруч із «шкалою ескалації» для консультацій — дуже делікатна і вкрай обережна задача, а не стандартна «зона безпеки».

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів