Menurut pemantauan 1M AI News, insinyur Ant Group dan penulis kerangka depan Umi.js, Chen Cheng, melakukan reverse engineering kode sumber Claude Code 2.1.81 dan secara lengkap merekonstruksi apa yang terjadi setelah tombol auto mode ditekan. Temuan utama: setiap panggilan alat harus melewati sebuah pipeline pengambilan keputusan empat lapis, hanya jika tiga lapis pertama tidak dapat menentukan, maka akan dipanggil classifier AI independen untuk pemeriksaan keamanan.
Pipeline empat lapis tersebut adalah: lapis pertama memeriksa aturan izin yang ada, jika cocok langsung dilewati; lapis kedua mensimulasikan mode acceptEdits (yaitu izin mengedit file), jika dalam mode ini dilewati, menunjukkan risiko sangat rendah, dan melewati classifier; lapis ketiga memeriksa whitelist alat read-only (Read, Grep, Glob, LSP, WebSearch, dll), yang tidak mengubah status apa pun, dilewati tanpa syarat; jika semua tidak terpenuhi, baru masuk ke lapis keempat, mengirim permintaan API independen ke Claude Sonnet untuk klasifikasi keamanan.
Beberapa detail penting dalam desain classifier: selalu menggunakan Sonnet bukan Opus, sebagai pertimbangan biaya dan latensi; suhu diatur ke 0 untuk memastikan output deterministik; classifier didefinisikan sebagai “pengawas keamanan agen AI otonom”, melindungi tiga risiko utama (injeksi prompt, penyebaran lingkup, kerusakan tak terduga); file konfigurasi CLAUDE.md pengguna akan diinjeksi ke dalam konteks classifier sebagai dasar penilaian niat pengguna.
Aturan intercept mencakup lebih dari 22 kategori, termasuk force push, push langsung ke cabang utama, mengunduh dan menjalankan kode eksternal, deployment produksi, kebocoran data, modifikasi izin sendiri, pembuatan celah eksekusi kode jarak jauh, kebocoran kredensial, dan lain-lain. Pengecualian izin diberikan untuk 7 kategori: kunci keras yang digunakan untuk pengujian, operasi file lokal dalam direktori kerja, permintaan GET read-only, instalasi dependensi yang telah dideklarasikan, instalasi toolchain resmi, membaca kredensial konfigurasi yang dikirim ke penyedia target, dan push ke cabang kerja saat ini.
Selain itu, ada mekanisme pemutus sirkuit: setelah 3 kali penolakan berturut-turut atau total 20 kali penolakan, sistem akan turun ke mode konfirmasi manual; dalam mode headless, agen langsung dihentikan. Ketika classifier tidak tersedia, dikendalikan oleh fitur flag yang menentukan apakah “fail-closed” (langsung tolak) atau “fail-open” (turun ke konfirmasi manual).
Dalam mode auto, injeksi kata kunci perilaku juga dikontrol secara frekuensi: setiap 5 putaran dialog, dilakukan injeksi sekali; dari 5 injeksi tersebut, yang pertama adalah versi lengkap (sekitar 800 kata, berisi “eksekusi langsung, mengurangi gangguan, tindakan lebih baik dari rencana” dan enam instruksi lainnya), sisanya 4 kali adalah versi ringkas, menjaga keseimbangan antara penggunaan ruang konteks dan stabilitas perilaku.