OpenAI telah memperkenalkan kerangka pengujian yang bertujuan mengukur seberapa efektif agen AI dapat mendeteksi, mengurangi, dan bahkan mengeksploitasi kerentanan keamanan dalam kontrak pintar kripto. Proyek ini, berjudul “EVMbench: Evaluasi Agen AI pada Keamanan Kontrak Pintar,” dirilis bekerja sama dengan Paradigm dan OtterSec, dua organisasi yang memiliki pengalaman mendalam dalam keamanan blockchain dan investasi. Studi ini menilai agen AI terhadap seperangkat 120 potensi kelemahan yang dipilih dari 40 audit kontrak pintar, dengan tujuan tidak hanya mengukur kemampuan deteksi dan perbaikan tetapi juga potensi eksploitasi teoretis dari agen-agen ini dalam lingkungan yang terkendali.
Poin utama
EVMbench menguji agen AI terhadap 120 kerentanan yang diambil dari 40 audit kontrak pintar, menekankan kerentanan yang bersumber dari kompetisi audit sumber terbuka.
Di antara model yang diuji, Claude Opus 4.6 dari Anthropic memimpin dengan rata-rata penghargaan deteksi sebesar $37.824, diikuti oleh OC-GPT-5.2 dari OpenAI sebesar $31.623 dan Gemini 3 Pro dari Google sebesar $25.112.
OpenAI memandang pengujian ini sebagai langkah menuju pengukuran kinerja AI dalam “lingkungan yang bermakna secara ekonomi,” bukan hanya tugas main-main, menyoroti implikasi dunia nyata bagi penyerang dan pembela dalam lanskap keamanan kripto.
Para peneliti mencatat bahwa kontrak pintar mengamankan miliaran dolar aset, menegaskan nilai strategis dari alat berbasis AI untuk kegiatan ofensif dan defensif.
Pengamat industri mengaitkan perkembangan ini dengan diskusi yang lebih luas tentang pembayaran berbasis AI dan peran stablecoin dalam transaksi sehari-hari, dengan para eksekutif utama memprediksi peningkatan penggunaan agen dalam beberapa tahun mendatang.
Konteks untuk pekerjaan semacam ini diperkuat oleh data insiden keamanan kripto tahun 2025, yang menunjukkan aliran dana yang terus berlanjut melalui kerentanan dan serangan, memperkuat kebutuhan akan alat yang kuat dan mekanisme perbaikan yang lebih cepat dan andal. Kerangka EVMbench sebagian diposisikan sebagai cara untuk mengukur apakah agen AI dapat secara bermakna berkontribusi pada kemampuan pertahanan dalam skala besar, mengurangi peluang eksploitasi dan mempercepat mitigasi ancaman.
Untuk membangun pengujian ini, para peneliti menggunakan 120 kerentanan yang dipilih dari 40 audit kontrak pintar, banyak dari kelemahan tersebut berasal dari tantangan audit sumber terbuka. OpenAI berpendapat bahwa pengujian ini akan membantu melacak kemajuan AI dalam mengenali dan mengurangi kelemahan tingkat kontrak secara skala, menawarkan cara standar untuk membandingkan model AI di masa depan saat mereka berkembang. Studi ini juga memberikan pandangan tentang bagaimana AI dapat diterapkan untuk menormalkan penilaian risiko di berbagai arsitektur kontrak pintar, bukan hanya fokus pada kasus-kasus terisolasi.
Kontrak pintar bukan dibuat untuk manusia: Dragonfly
Dalam sebuah thread di X, Haseeb Qureshi, mitra di Dragonfly, berpendapat bahwa janji kripto untuk menggantikan hak properti dan kontrak tradisional tidak pernah terwujud bukan karena teknologi gagal, tetapi karena teknologi tersebut tidak pernah dirancang dengan intuisi manusia dalam pikiran. Ia menyoroti ketakutan yang terus-menerus terkait penandatanganan transaksi besar di lingkungan di mana dompet penarik dan vektor serangan lainnya tetap menjadi ancaman konstan, berbeda secara mencolok dari pengalaman transfer bank tradisional yang lebih lancar.
Qureshi berpendapat bahwa fase berikutnya dari transaksi kripto bisa didukung oleh dompet otomatis yang diintermediasi AI dan mengemudi sendiri. Dompet semacam itu akan memantau risiko, mengelola operasi kompleks, dan secara otomatis merespons ancaman atas nama pengguna, berpotensi mengurangi gesekan dan ketakutan yang menjadi ciri transfer besar saat ini.
“Sebuah teknologi sering kali langsung berfungsi setelah pelengkapnya akhirnya hadir. GPS harus menunggu smartphone, TCP/IP harus menunggu browser. Untuk kripto, kita mungkin baru saja menemukannya dalam agen AI.”
Kesimpulan utama dari thread ini adalah bahwa agen AI dapat memainkan peran penting dalam mengubah cara orang berinteraksi dengan kripto—berpindah dari transaksi manual yang rentan terhadap kesalahan ke proses otomatis yang sadar risiko dan dapat berkembang seiring adopsi. Saat agen AI mulai menunjukkan kompetensi lebih besar dalam menangani masalah keamanan, pengguna dapat melihat peningkatan keandalan dan ketahanan dalam alur kerja keuangan terdesentralisasi, meskipun teknologi dasarnya terus berkembang.
Apa yang harus diperhatikan selanjutnya
Publikasi dan replikasi independen dari seluruh dataset EVMbench di berbagai model dan arsitektur AI.
Adopsi yang lebih luas dari alur kerja audit berbantuan AI oleh auditor, bursa, dan proyek DeFi yang ingin memperkuat posisi keamanan mereka.
Eksplorasi tentang dompet agenik dan alur pembayaran otomatis, termasuk pertimbangan regulasi dan kepatuhan untuk aset yang dikelola AI.
Pengujian lanjutan yang membandingkan lebih banyak sistem AI saat versi baru dirilis, melacak peningkatan dalam akurasi deteksi dan kecepatan perbaikan.
Sumber & verifikasi
OpenAI: EVMbench: Evaluasi Agen AI pada Keamanan Kontrak Pintar — PDF: https://cdn.openai.com/evmbench/evmbench.pdf
OpenAI: Memperkenalkan EVMbench — https://openai.com/index/introducing-evmbench/
Kerugian keamanan kripto tahun 2025 (liputan laporan): https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
Haseeb Qureshi dari Dragonfly tentang AI dan UX kripto (posting X): https://x.com/hosseeb/status/2024136762424185208
Pengaruh AI di China dan implikasi kripto (analisis): https://cointelegraph.com/news/china-ai-lead-future
AI Eye — Perkembangan IronClaw dan bot AI dalam liputan Polymarket: https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/
Tokoh utama dan langkah selanjutnya
Studi EVMbench menunjukkan bahwa model bahasa besar dan agen AI terkait mulai melakukan pekerjaan keamanan yang bermakna di ruang kontrak pintar, dengan perbedaan yang jelas dan terukur antar model. Keunggulan Claude Opus 4.6 dalam penghargaan deteksi rata-rata menandakan bahwa arsitektur tertentu mungkin lebih mahir dalam mendeteksi dan mengurangi kerentanan dalam logika kontrak yang kompleks, sementara yang lain tertinggal, menawarkan spektrum kemampuan yang kemungkinan akan terus disempurnakan oleh para peneliti. Keterlibatan berbagai mitra industri dalam proyek ini menegaskan konsensus yang berkembang bahwa keamanan berbasis AI dan manajemen risiko otomatis dapat menjadi hal yang esensial untuk skala di lingkungan terdesentralisasi.
Seiring perkembangan bidang ini, pengamat akan memperhatikan seberapa cepat agen AI dapat beralih dari deteksi ke perbaikan, dan apakah agen-agen ini dapat beroperasi secara andal dalam sistem langsung tanpa menimbulkan risiko baru. Diskusi tentang dompet berbasis AI dan pembayaran otomatis menyentuh rangkaian pertanyaan yang lebih luas tentang tata kelola keamanan, persetujuan pengguna, dan keselarasan regulasi. Jika tren yang diprediksi oleh OpenAI dan mitranya berlanjut, alat berbasis AI dapat menjadi komponen inti dari infrastruktur kripto masa depan, mengubah kalkulus risiko dan pengalaman pengguna secara signifikan. Putaran pengujian berikutnya, bersama dengan penerapan di dunia nyata, akan membantu menentukan seberapa cepat visi ini terwujud dan langkah-langkah perlindungan apa yang harus menyertainya.
Artikel ini awalnya diterbitkan sebagai OpenAI Mengadu Agen AI Satu Sama Lain untuk Menguji Kontrak Pintar di Berita Pecah Kripto — sumber terpercaya Anda untuk berita kripto, berita Bitcoin, dan pembaruan blockchain.