Pembuat ChatGPT, OpenAI, dan perusahaan investasi yang berfokus pada kripto, Paradigm, telah memperkenalkan EVMbench, sebuah alat untuk membantu meningkatkan keamanan kontrak pintar Ethereum Virtual Machine. EVMbench dirancang untuk mengevaluasi kemampuan agen AI dalam mendeteksi, memperbaiki, dan mengeksploitasi kerentanan tingkat tinggi dalam kontrak pintar Ethereum Virtual Machine (EVM). Kontrak pintar adalah inti dari jaringan Ethereum, menyimpan kode yang menjalankan segala sesuatu mulai dari protokol keuangan terdesentralisasi hingga peluncuran token. Jumlah kontrak pintar yang dideploy setiap minggu di Ethereum mencapai rekor tertinggi 1,7 juta pada November 2025, dengan 669.500 dideploy minggu lalu saja, menurut Token Terminal.
EVMbench mengacu pada 120 kerentanan yang dikurasi dari 40 audit, sebagian besar berasal dari kompetisi audit terbuka seperti Code4rena, menurut posting blog OpenAI. Alat ini juga mencakup skenario dari proses audit keamanan untuk Tempo, blockchain layer-1 yang dibangun khusus oleh Stripe yang fokus pada pembayaran stablecoin berkecepatan tinggi dan biaya rendah. Raksasa pembayaran Stripe meluncurkan testnet publik untuk Tempo pada Desember, dengan menyatakan bahwa pengembangan alat ini melibatkan masukan dari Visa, Shopify, dan OpenAI, di antara lainnya. Tujuannya adalah untuk mendasarkan pengujian pada kode dunia nyata yang bermakna secara ekonomi—terutama saat pembayaran stablecoin berbasis AI berkembang, tambah perusahaan tersebut.
Memperkenalkan EVMbench—benchmark baru yang mengukur seberapa baik agen AI dapat mendeteksi, mengeksploitasi, dan memperbaiki kerentanan kontrak pintar tingkat tinggi. https://t.co/op5zufgAGH
— OpenAI (@OpenAI) 18 Februari 2026
EVMbench dirancang untuk mengevaluasi model AI dalam tiga mode: Deteksi, perbaikan, dan eksploitasi. Dalam mode “deteksi,” agen mengaudit repositori dan dinilai berdasarkan kemampuan mereka mengingat kerentanan yang sebenarnya. Dalam mode “perbaikan,” agen harus menghilangkan kerentanan tanpa merusak fungsi yang dimaksudkan. Akhirnya, dalam fase “eksploitasi,” agen mencoba serangan pengurasan dana secara end-to-end di lingkungan blockchain yang dikarantina, dengan penilaian dilakukan melalui replay transaksi deterministik. Dalam mode eksploitasi, GPT-5.3-Codex yang dijalankan melalui OpenAI’s Codex CLI meraih skor 72,2%, dibandingkan 31,9% untuk GPT-5, yang dirilis enam bulan sebelumnya. Performa dalam tugas deteksi dan perbaikan lebih lemah, di mana agen kadang gagal melakukan audit secara menyeluruh atau kesulitan menjaga fungsi kontrak secara penuh. Para peneliti dari pembuat ChatGPT memperingatkan bahwa EVMbench tidak sepenuhnya menangkap kompleksitas keamanan dunia nyata. Meski begitu, mereka menambahkan bahwa mengukur kinerja AI dalam lingkungan yang relevan secara ekonomi sangat penting karena model menjadi alat yang kuat bagi penyerang maupun pembela. Sam Altman dari OpenAI dan co-founder Ethereum, Vitalik Buterin, sebelumnya pernah berselisih mengenai kecepatan pengembangan AI. Pada Januari 2025, Altman mengatakan bahwa perusahaannya “percaya bahwa kami tahu cara membangun AGI seperti yang kami pahami secara tradisional.” Namun, Buterin berpendapat bahwa sistem AI harus menyertakan kemampuan “penundaan lunak” yang dapat secara sementara membatasi operasi AI skala industri jika tanda-tanda peringatan muncul.
Artikel Terkait
Data: Dalam 24 jam terakhir, total likuidasi di seluruh jaringan mencapai 252 juta dolar AS, likuidasi posisi long sebesar 170 juta dolar AS, dan likuidasi posisi short sebesar 81,774,1 juta dolar AS
Bitcoin turun ke $70,600, Ethereum bertahan di 2,055, analis: skor pasar bullish hanya 10, jangan terlalu percaya pada rebound ini
Mengapa Jalan Ethereum Menuju $2.5K Bisa Lebih Sulit—Inilah Alasannya
Culper Research mengumumkan short ETH dan sekuritas terkait, menyatakan bahwa model ekonomi token setelah upgrade Fusaka mengalami kerusakan
Vitalik:Di bidang lapisan aplikasi dan antarmuka eksternal Ethereum, harus berani untuk melakukan rekonstruksi total berbagai konsep