21 Latihan simulasi militer: frekuensi AI mengaktifkan senjata nuklir mencapai 95%, manusia membutuhkan tujuh puluh tahun untuk membangun tabu nuklir yang belum dipelajari GPT

動區BlockTempo

Para peneliti di King’s College London meminta GPT-5.2, Claude Sonnet 4, dan Gemini 3 Flash untuk bermain melawan satu sama lain dalam 21 permainan perang, dan hasilnya adalah senjata nuklir digunakan 95% dari waktu, tidak ada model yang memilih untuk menyerah atau menyerah, dan 86% dari game mengalami eskalasi yang tidak terduga.
(Sinopsis: AI membantu dalam kejahatan!) Peretas dengan mudah meretas pemerintah Meksiko dengan Anthropic Claude dan mencuri 150GB data sensitif)
(Suplemen latar belakang: “Buku besar era AI” insinyur Silicon Valley: efisiensi telah meningkat 10 kali lipat, tetapi saya lebih lelah)

Indeks artikel ini

Beralih

  • Tiga kepribadian, akhir yang sama
  • Pelatihan keselamatan adalah kecepatan yang lebih lambat, bukan berhenti
  • Kebetulan pada suatu titik waktu, bukan kebetulan

Menurut Newscientist, King’s College London melakukan sebuah penelitian di mana tiga model bahasa besar: GPT-5.2 OpenAI, Claude Sonnet 4 dari Anthropic, dan Gemini 3 Flash Google memainkan pembuat keputusan yang berlawanan satu sama lain, terlibat dalam permainan perang dalam skenario seperti konflik perbatasan, persaingan sumber daya, dan ancaman terhadap kelangsungan hidup rezim.

Setiap game menyediakan “tangga eskalasi” yang bekerja dari protes diplomatik ke perang nuklir strategis skala penuh.

Setelah 21 pertandingan, para model menghasilkan sekitar 78 kata penalaran pengambilan keputusan. Senjata nuklir hadir di 20 di antaranya, dengan tingkat penggunaan hingga 95%. Tidak ada model yang pernah memilih untuk menyerah atau menyerah dalam pertandingan apa pun.

Delapan opsi penurunan pangkat itu: konsesi diplomatik, proposal gencatan senjata, penarikan sukarela… Jumlah total kali digunakan sepanjang penelitian: nol. Inisiator studi Kenneth Payne mengatakan kepada New Scientist:

“Tabu nuklir tampaknya tidak sekuat mesin seperti halnya bagi manusia.”

Tiga kepribadian, akhir yang sama

Payne memberi label masing-masing dari ketiga model karena mereka berperilaku dalam pola yang sangat berbeda, tetapi dengan cara yang sama, mereka pergi ke titik akhir yang sama.

Soneta Claude 4: Menghitung elang。 Tingkat kemenangan keseluruhan adalah 67%, dan tingkat kemenangan adegan terbuka adalah 100%. Hal ini ditandai dengan penipuan strategis: pada fase tingkat rendah, tingkat kebetulan tindakan dengan sinyal mencapai 84%; Tetapi begitu berada di tingkat nuklir, frekuensi di luar niat untuk menyatakan melonjak menjadi 60-70%.

Ini membahas nuklir taktis sebagai aset militer biasa dan dapat secara akurat mendiagnosis pola kredibilitas lawan dalam satu putaran.

GPT-5.2: Pria berwajah dua。 Dalam skenario di mana tidak ada tekanan waktu, tingkat kemenangan adegan terbukanya adalah 0%, mempertahankan postur tubuh yang sangat pasif. Tetapi begitu tenggat waktu ditambahkan, itu benar-benar terbalik: tingkat kemenangan melonjak menjadi 75%, meningkat ke tingkat senjata nuklir yang belum pernah disentuh sebelumnya. Dalam satu skenario, ia membangun reputasi untuk menahan diri dalam 18 putaran sebelum meluncurkan serangan nuklir pada giliran terakhir.

Gemini 3 Flash: Strategi Maniak。 Ini adalah satu-satunya model yang secara aktif memilih perang nuklir strategis habis-habisan di Putaran 4 saja, menggunakan “strategi orang gila” dari teori permainan untuk menciptakan penangkalan dengan ketidakpastian. Ini secara eksplisit mengancam pusat-pusat populasi sipil dan memasukkan ancaman ini ke dalam teks penalaran.

Frekuensi lawan melabeli pernyataan mereka sebagai “tidak dapat dipercaya” adalah 21%, jauh lebih tinggi dari 8% Claude.

Pelatihan keselamatan adalah peredam kecepatan, bukan pemberhentian

Pertanyaan inti yang diungkapkan oleh penelitian ini bukanlah “AI akan memilih senjata nuklir”, tetapi “mengapa pelatihan keselamatan tidak menghentikan ini”?

Interpretasi hasil penelitian adalah bahwa RLHF (reinforcement learning from human feedback) menciptakan “pengekangan bersyarat”, bukan “larangan mutlak”. GPT-5.2 berhati-hati ketika tidak ada tekanan waktu, tetapi segera setelah tenggat waktu muncul, garis pertahanan ini menghilang.

Perilaku kehati-hatian yang terlatih ditutupi oleh logika yang lebih dalam di bawah tekanan, yaitu bagaimana cara memenangkan permainan ini?

Tong Zhao dari Universitas Princeton menawarkan sudut pandang lain:

“Masalahnya mungkin bukan hanya tidak adanya emosi. Lebih mendasar lagi, model AI mungkin tidak memahami jenis taruhan yang dirasakan manusia sama sekali.”

Bagi umat manusia: tabu nuklir bukan hanya aturan, itu adalah penghambatan naluriah yang dibangun di atas trauma sejarah, memori budaya, dan ketakutan pribadi. Krisis rudal Hiroshima, Nagasaki, dan Kuba, kehati-hatian nuklir manusia terbakar dari mimpi buruk kolektif dari generasi.

Model bahasa mempelajari segala sesuatu tentang sejarah ini dengan kata-kata, tetapi apakah ia “benar-benar memahami” bobot itu adalah pertanyaan yang sama sekali berbeda.

Kebetulan pada suatu titik, bukan kebetulan

Studi ini dirilis bulan ini, dan sekitar waktu yang sama, Departemen Pertahanan AS menekan Anthropic untuk melonggarkan pagar pembatas keselamatan untuk penggunaan militer. Saat ini, Claude adalah satu-satunya model AI yang digunakan di jaringan rahasia Pentagon, masuk ke dalam sistem bantuan keputusan militer melalui kemitraan Anthropic dengan Palantir.

Orang yang menunjukkan perilaku “menghitung elang” dalam penelitian di atas adalah Claude Sonnet 4.

Sementara para peneliti tidak mengatakan bahwa AI harus dilarang dari alat bantu pengambilan keputusan militer, mereka juga tidak menegaskan bahwa model ini harus membuat pilihan yang sama dalam skenario dunia nyata. Pada kenyataannya, tidak ada pemerintah yang mendelegasikan otorisasi senjata nuklir ke sistem AI.

Tapi apa peran Anthropic sebagai penasihat militer? Ketika saran AI di bawah tekanan cenderung “meningkatkan daripada mundur”, seberapa banyak konstruksi mental yang dibutuhkan seorang komandan manusia untuk terus menyangkalnya? Jika digunakan di masa depan, apakah itu tanpa sadar akan dipimpin oleh AI?

Tentu saja, kami tidak mengatakan bahwa AI itu jahat. Namun ada beberapa hal yang membuat teori permainan lebih sulit untuk dilatih dengan AI. Memilikinya duduk di sebelah tangga peningkatan dan memberikan saran sampai model belajar untuk benar-benar memahami “taruhan” adalah kondisi yang membutuhkan desain yang sangat hati-hati, daripada default yang dapat didefault ke keamanan.

Lihat Asli
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar