OpenAI Menghentikan EVMbench Setelah Bencana Kode Claude Vibe

LiveBTCNews

2026-02-19 18:35:41

DEFI-0,67%

WELL-0,77%

L1-1,3%

CODEX0,23%

OpenAI meluncurkan EVMbench untuk menguji agen AI pada keamanan kontrak pintar beberapa hari setelah kode yang dibantu Claude Opus 4.6 memicu eksploit DeFi sebesar $1,78 juta.

Smart kontrak melindungi lebih dari $100 miliar aset kripto sumber terbuka. Angka itu saja sudah cukup menjelaskan mengapa langkah terbaru OpenAI menarik perhatian serius. Perusahaan ini, bekerja sama dengan perusahaan investasi kripto Paradigm, meluncurkan EVMbench, sebuah tolok ukur yang dirancang untuk menguji seberapa baik agen AI mendeteksi, mengeksploitasi, dan memperbaiki kerentanan kontrak pintar dengan tingkat keparahan tinggi.

Tolok ukur ini diambil dari 120 kerentanan yang dikurasi dari 40 audit. Kebanyakan berasal dari kompetisi audit kode terbuka. Yang membedakannya adalah cakupannya. EVMbench menguji tiga mode kemampuan yang berbeda: deteksi, perbaikan, dan eksploitasi, masing-masing diukur secara terpisah dan dinilai melalui kerangka kerja berbasis Rust yang memutar ulang transaksi di lingkungan sandbox lokal. Tidak ada jaringan langsung yang terlibat.

Angka yang Harus Membuat Semua Orang Khawatir

Dalam mode eksploitasi, GPT-5.3-Codex melalui Codex CLI mendapatkan skor 72,2%. Enam bulan lalu, GPT-5 berada di angka 31,9% pada metrik yang sama. Perbedaan ini tidak kecil. OpenAI mengonfirmasi angka tersebut dalam pengumuman resmi mereka di X, menggambarkan EVMbench sebagai alat pengukuran sekaligus panggilan untuk komunitas keamanan.

Skor deteksi dan perbaikan tetap lebih rendah. Agen dalam pengaturan deteksi kadang-kadang hanya mengidentifikasi satu kerentanan dan kemudian berhenti. Mereka tidak memeriksa seluruh basis kode. Dalam mode perbaikan, tantangannya adalah mempertahankan fungsi kontrak secara penuh sambil menghilangkan kerusakan. Keseimbangan ini masih menyulitkan model.

Harus dibaca: Trust Wallet Security Hack: Cara Melindungi Aset Anda

Sebuah Kesalahan Oracle sebesar $1,78 juta yang Tidak Terdeteksi

Latar belakang dari semua ini penting. Peneliti keamanan evilcos menyoroti di X bahwa protokol pinjaman DeFi Moonwell mengalami kerugian sekitar $1,78 juta. Penyebabnya adalah kesalahan konfigurasi Oracle. Rumus feed harga ditulis dengan salah, menetapkan nilai cbETH sebesar $1,12 alih-alih sekitar $2.200.

Itu adalah kesalahan tingkat rendah. Jenis audit yang cermat seharusnya bisa menangkapnya. Permintaan pull GitHub untuk proposal MIP-X43 menunjukkan commit yang dikontribusikan bersama Claude Opus 4.6. Model terbaru dan paling canggih dari Anthropic saat itu.

Auditor kontrak pintar pashov memposting di X menyebutkan bahwa ini mungkin adalah eksploit pertama yang terkait dengan Solidity yang dikodekan dengan vibe. Dia berhati-hati mencatat bahwa peninjau manusia tetap memegang tanggung jawab akhir. Seorang auditor keamanan harus menyetujui sebelum sesuatu masuk ke blockchain. Tapi ada sesuatu yang gagal dalam rantai tersebut.

Apa yang Sebenarnya Dibangun oleh EVMbench

Tolok ukur ini mencakup skenario kerentanan dari audit keamanan blockchain Tempo, sebuah blockchain L1 yang dirancang khusus untuk pembayaran stablecoin dengan throughput tinggi. Ekstensi ini mendorong EVMbench ke dalam kode kontrak yang berorientasi pembayaran, sebuah area di mana OpenAI mengantisipasi aktivitas stablecoin berbasis agen akan berkembang.

Setiap tugas eksploitasi dijalankan dalam instance Anvil yang terisolasi. Transaksi diputar ulang secara deterministik. Pengaturan penilaian membatasi metode RPC yang tidak aman dan telah diuji secara internal untuk mencegah agen memanipulasi hasil. Kerentanan yang digunakan bersifat historis dan didokumentasikan secara publik.

OpenAI juga berkomitmen menyediakan kredit API sebesar $10 juta untuk mempercepat pertahanan siber, dengan prioritas pada perangkat lunak sumber terbuka dan infrastruktur kritis. Agen riset keamanannya, Aardvark, sedang diperluas ke dalam mode beta pribadi. Pemindaian kode sumber secara gratis untuk proyek sumber terbuka yang banyak digunakan adalah bagian dari dorongan tersebut.

Pertanyaan Vibe-Coding dengan Risiko Nyata

Postingan Pashov di X menimbulkan apa yang banyak di ruang DeFi hindari. Ketika AI menulis kode Solidity produksi dan manusia menyetujuinya dengan cepat, lapisan peninjauan menjadi tipis. Insiden Moonwell menunjukkan betapa tipisnya lapisan itu bisa menjadi.

OpenAI mengakui bahwa keamanan siber secara inheren bersifat dual-use. Tanggapannya didasarkan pada bukti. Pelatihan keselamatan, pemantauan otomatis, dan kontrol akses untuk kemampuan canggih adalah bagian dari itu. Tapi skor eksploitasi 72,2% pada tolok ukur publik adalah angka yang tidak bisa diam saja.

Set lengkap tugas EVMbench, alat, dan kode evaluasi sekarang sudah dipublikasikan. Tujuannya adalah agar peneliti dapat melacak kemampuan siber AI seiring pertumbuhannya, dan membangun pertahanan dengan kecepatan yang sama. Apakah kecepatan itu cukup cepat adalah pertanyaan yang belum terjawab.

Lihat Asli

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

Tidak ada komentar