
OpenAI merilis GPT-5.3-Codex, model pertama yang “berpartisipasi dalam menciptakan dirinya sendiri” untuk men-debug kodenya sendiri, mengelola penerapan, dan mendiagnosis pengujian. Karpathy menyebut revisi itu “paling dekat dengan adegan lepas landas AI.”
Akun resmi OpenAI dirilis: GPT-5.3-Codex secara resmi diluncurkan, yang merupakan “yang pertama berpartisipasi dalam membuat model Anda sendiri”. Apa artinya? Dengan kata lain, selama proses pengembangan, AI ini membantu men-debug kode pelatihannya sendiri, mengelola proses penerapannya sendiri, dan mendiagnosis hasil pengujiannya sendiri. Dalam istilah manusia, AI sudah mulai menciptakan AI.
Andrej Karpathy, mantan peneliti OpenAI dan direktur AI Tesla, men-tweet langsung setelah membacanya: “Ini adalah hal terdekat yang pernah saya lihat dengan adegan lepas landas AI dalam fiksi ilmiah.” Penilaian dari peneliti AI top ini berbobot karena Karpathy secara pribadi telah mengalami beberapa tahap kunci pengembangan AI, dan penilaiannya didasarkan pada pemahaman teknis yang mendalam.
AI mengulangi dirinya sendiri, ini bukan retorika pemasaran. Menurut pengungkapan internal OpenAI, GPT-5.3-Codex melakukan hal-hal ini selama proses pengembangan: menganalisis pengujian yang gagal menandai log pelatihan, menyarankan perbaikan untuk skrip dan profil pelatihan, menghasilkan resep penerapan, dan meringkas serta mengevaluasi anomali untuk ditinjau manusia. Apa artinya ini? AI bukan lagi hanya alat, tetapi mulai menjadi bagian dari tim pengembangan, dan itu adalah jenis yang dapat meningkatkan dirinya sendiri.
Kemampuan untuk berpartisipasi dalam pengembangan ini mendorong melalui pemosisian AI tradisional. Di masa lalu, model AI dirancang, dilatih, dan digunakan sepenuhnya oleh manusia, dan AI adalah produk pasif. Sekarang GPT-5.3 telah memainkan peran aktif dalam kelahirannya sendiri, dan sementara masih di bawah pengawasan manusia, pergeseran peran ini memiliki implikasi yang luas. Ini mengisyaratkan kemungkinan: model AI masa depan sebagian besar dapat dirancang dan dioptimalkan oleh AI itu sendiri, dengan manusia hanya memberikan arahan dan tinjauan akhir.
Menganalisis log pelatihan: Secara otomatis menandai pengujian yang gagal untuk mengidentifikasi anomali selama pelatihan
Rencana perbaikan yang direkomendasikan: Menyarankan penyempurnaan pada skrip dan profil pelatihan
Hasilkan resep penyebaran: Mengotomatiskan proses penerapan dan mengurangi operasi manual
Anomali penilaian ringkasan: Atur hasil penilaian yang kompleks ke dalam laporan yang dapat dimengerti manusia
Sebuah makalah SEAL baru-baru ini yang diterbitkan oleh MIT (arXiv:2506.10943) menggambarkan arsitektur AI yang terus belajar setelah penerapan, mengembangkan dirinya sendiri tanpa pelatihan ulang. Khususnya, beberapa peneliti SEAL kini telah bergabung dengan OpenAI. Ini berarti bahwa AI telah berubah dari “alat statis” menjadi “sistem dinamis”, pembelajaran tidak lagi berhenti pada penerapan, dan batas-batas inferensi dan pelatihan mencair. GPT-5.3 mungkin merupakan aplikasi komersial pertama dari arsitektur baru ini.
Pada 5 Februari, OpenAI dan Anthropic keduanya merilis model generasi baru dengan jarak hanya 20 menit. Pertama, Anthropic merilis Claude Opus 4.6, dan kemudian OpenAI meluncurkan GPT-5.3-Codex. Karena OpenAI ingin menggunakan GPT-5.3-Codex untuk menembak model baru orang lain, ia harus memiliki beberapa kemampuan. Data tidak berbohong, GPT-5.3-Codex mencetak rekor baru dalam beberapa tolok ukur industri segera setelah diluncurkan.
Terminal-Bench 2.0 menguji kemampuan operasional AI di lingkungan terminal nyata, mengkompilasi kode, model pelatihan, dan mengonfigurasi server. GPT-5.3-Codex mencetak 77,3%, sedangkan GPT-5.2-Codex hanya memiliki 64,0% dan Claude Opus 4.6 melaporkan 65,4%. Ini adalah peningkatan 13 poin persentase antar generasi, yang sudah merupakan lompatan besar ke depan di bidang AI. Perbandingan 77,3% vs 65,4% menunjukkan bahwa GPT-5.3 memberikan keuntungan yang signifikan dalam tugas rekayasa dunia nyata.
SWE-Bench Pro adalah tolok ukur yang dirancang khusus untuk menguji kemampuan rekayasa perangkat lunak dunia nyata, yang mencakup empat bahasa pemrograman: Python, JavaScript, Go, dan Ruby. GPT-5.3-Codex mencetak skor 56,8%, melampaui 56,4% dari pendahulunya, GPT-5.2-Codex, dan terus mempertahankan tempat pertamanya di industri ini. Lebih penting lagi, OpenAI mengungkapkan bahwa GPT-5.3-Codex menggunakan jumlah token output terkecil dari model apa pun ketika mencapai skor ini, artinya tidak hanya akurat tetapi juga efisien.
OSWorld-Verified menguji kemampuan AI untuk menyelesaikan tugas produktivitas di lingkungan desktop visual, mengedit spreadsheet, membuat presentasi, mengerjakan dokumen, dan banyak lagi. GPT-5.3-Codex mencetak skor 64,7%, dibandingkan dengan rata-rata manusia sebesar 72%. Ini berarti bahwa ia telah mendekati kinerja orang biasa dalam tugas pengoperasian komputer, hampir dua kali lipat dari pendahulunya. Kinerja mendekati manusia ini membuat AI benar-benar mampu bekerja di kantor untuk pertama kalinya, bukan hanya alat tambahan.
Yang lebih penting adalah Claude Opus 4.6 mendukung jendela konteks token 100K (beta) untuk pertama kalinya dalam model tingkat Opus, yang dapat memproses seluruh basis kode atau ratusan halaman dokumen sekaligus, dan meluncurkan fungsi Agent Teams, di mana beberapa agen AI dapat berkolaborasi dalam pemrograman, pengujian, dan penulisan dokumen secara bersamaan.
Ketika OpenAI dan Anthropic merilis model andalan mereka pada hari yang sama dan pada saat yang sama, kompetisi ini bukan lagi hanya kompetisi teknis, tetapi pertempuran atas bentuk masa depan AI: rute “evolusi diri” OpenAI atau rute “kolaborasi multi-agen” Anthropic? Strategi OpenAI adalah membuat satu AI lebih kuat dan bahkan meningkatkan dirinya sendiri. Strategi Anthropic adalah memungkinkan beberapa AI berkolaborasi dalam tugas-tugas kompleks melalui pembagian kerja dan kolaborasi.
Konteks 100K token adalah terobosan teknologi. Ini setara dengan sekitar 75 juta kata bahasa Inggris atau 300 karakter Cina, yang cukup untuk memuat seluruh kode proyek perangkat lunak berukuran sedang atau dokumentasi teknis yang tebal. Kapasitas ini memungkinkan Claude untuk “melihat” seluruh proyek daripada pemahaman yang terfragmentasi. Untuk analisis arsitektur dan pemfaktoran ulang proyek skala besar, pandangan global ini sangat penting.
Agent Teams menghadirkan konsep kolaborasi ke AI. Satu Agen menulis kode, yang lain menguji, dan yang ketiga menulis dokumentasi, dan mereka dapat berkomunikasi dan berkoordinasi satu sama lain. Pola ini meniru cara kerja tim perangkat lunak manusia dan mungkin lebih cocok untuk skenario tertentu daripada AI super tunggal. Namun, kolaborasi multi-agen juga memperkenalkan kompleksitas baru: cara berkoordinasi, cara menghindari konflik, dan bagaimana memastikan konsistensi.
Kedua rute tersebut memiliki kelebihan dan kekurangannya masing-masing. Rute evolusi diri OpenAI lebih agresif, dan jika berhasil, dapat menyebabkan peningkatan eksponensial dalam kemampuan, tetapi juga dapat lepas kendali. Rute multi-agen Anthropic lebih konservatif, mengurangi satu titik risiko dengan menyebarkan kemampuan, tetapi biaya koordinasi dapat membatasi efisiensi. Ketika AI mulai berkembang di alam liar, pertanyaan tata kelola akan bergeser dari “seberapa pintar” menjadi “bagaimana kita mengelola sistem yang terus berubah?” Dan ketika dua perusahaan AI teratas merilis model terobosan berturut-turut dalam waktu 20 menit, jendela waktu yang tersisa untuk pemikiran dan persiapan manusia menyusut dengan kecepatan yang terlihat dengan mata telanjang.
Artikel Terkait
Kerja sama Sony Bank JPYC Yen di blockchain: stablecoin untuk membeli game PlayStation, menonton anime Crunchyroll semakin dekat
Analis Bitunix: Risiko Hormuz meningkat, rantai minyak dan emas aktif, likuiditas short di atas BTC menumpuk
Indeks saham Amerika Serikat dan Eropa turun bersamaan, indeks futures S&P 500 turun 0.6%
“1011 Insider Whale” menyebut pasar kripto masih dalam kisaran fluktuasi
Steak 'n Shake Meluncurkan Bonus Bitcoin sebesar 21 Sen per Jam untuk Karyawan