OpenAI mulai meluncurkan GPT-5.4—model paling canggih mereka hingga saat ini—pada hari Kamis saat perusahaan berusaha mengatasi krisis PR yang telah menyebabkan sekitar 2,5 juta pengguna mengambil tindakan terhadap perusahaan, baik dengan membatalkan langganan mereka maupun membagikan boikot di media sosial. Gerakan QuitGPT yang disebut meledak setelah OpenAI mengungkapkan kesepakatan dengan Departemen Pertahanan AS beberapa jam setelah Anthropic secara terbuka mundur dari kontrak yang sama—mendapatkan kritik publik dari Presiden Trump dan pejabat pemerintah lainnya. Poin utama Anthropic: DoD menolak memasukkan bahasa yang secara eksplisit melarang penggunaan senjata otonom dan pengawasan massal terhadap warga AS.
OpenAI tetap menerima kesepakatan tersebut. CEO Sam Altman, yang sering ditanya tentang ketidaksesuaian antara garis merah keselamatan yang dinyatakan perusahaan dan bahasa kontrak yang sebenarnya, membutuhkan kembali pengguna tersebut. Masuklah GPT-5.4… hanya dua hari setelah GPT-5.3 diperkenalkan.
Model baru ini mengkonsolidasikan kemampuan penalaran, pengkodean, dan agenik dalam satu rilis. Ia juga memiliki kapasitas konteks satu juta token, yang berarti pengguna memiliki lebih banyak kebebasan untuk menangani sejumlah besar informasi dalam satu sesi. Secara teori, angka-angkanya menjanjikan. Pada GDPval—pengujian pengetahuan kerja di 44 profesi—GPT-5.4 menyamai atau mengungguli profesional industri dalam 83,0% perbandingan, meningkat dari 70,9% untuk GPT-5.2. Penggunaan komputer adalah lonjakan terbesar: Pada OSWorld-Verified, yang mengukur kemampuan model untuk mengoperasikan desktop melalui tangkapan layar dan aksi keyboard/mouse, GPT-5.4 mencapai tingkat keberhasilan 75,0% dibandingkan GPT-5.2 yang 47,3%—dan melampaui baseline manusia sebesar 72,4%. Pada BrowseComp, pengujian riset web mendalam, model ini melonjak 17 poin persentase dibanding GPT-5.2. Jendela konteks satu juta token dan fitur pengarahan saat respons sedang berlangsung—yang memungkinkan pengguna mengarahkan ulang model saat masih berpikir—menyempurnakan fitur utama lainnya. Fitur ini menghemat waktu dan komputasi dengan menghindari kebutuhan membuang semua token yang sebelumnya dihasilkan saat terdeteksi kesalahan.
Siapa yang akan diuntungkan dari GPT 5.4? Perlu dicatat bahwa beberapa tolok ukur sebagian besar membandingkan GPT-5.4—dan sebagian besar waktu, penalaran diatur dengan usaha ekstra tinggi, yang tidak dinikmati pengguna gratis dan Plus—dengan GPT-5.2, melewatkan GPT-5.3 sama sekali. Bagi pengguna yang sudah menggunakan GPT-5.3, beberapa keuntungan mungkin terasa lebih bertahap daripada yang ditunjukkan grafik.
Pengembang memiliki alasan paling kuat untuk menahan harapan: Pada SWE-Bench Pro, peningkatan dari GPT-5.3-Codex (56,8%) ke GPT-5.4 (57,7%) hampir tidak terlihat. Model ini juga mengklaim membutuhkan token yang jauh lebih sedikit untuk menyelesaikan tugas dibanding GPT-5.2. “GPT‑5.4 adalah model penalaran paling efisien token kami hingga saat ini, menggunakan jauh lebih sedikit token untuk menyelesaikan masalah dibanding GPT‑5.2,” kata OpenAI. Namun demikian, setiap peningkatan di bidang ini merupakan hal positif bagi pengembang yang menggunakan model OpenAI melalui API dan dikenai biaya per token yang digunakan. Model dengan rantai pemikiran yang efisien mungkin memberikan hasil yang sama dengan biaya yang jauh lebih rendah, dibandingkan model yang cenderung overthink untuk memastikan mencapai kesimpulan yang tepat. Ada satu tantangan lagi bagi siapa saja yang berharap menggunakan model baru ini saat ini: OpenAI mengatakan GPT-5.4 akan dirilis hari ini, tetapi belum tersedia saat tulisan ini dibuat, sehingga kemungkinan sedang diluncurkan secara perlahan. Bagi kebanyakan pengguna, model terbaik adalah GPT 5.3, dan hanya dapat digunakan untuk jawaban instan, yang berarti memberikan jawaban yang tidak memerlukan banyak usaha. Pengguna yang mengandalkan proses berpikir—istilah OpenAI untuk penalaran rantai panjang yang kompleks—masih menggunakan GPT-5.2. Dengan kata lain, pengguna yang paling mungkin mendorong batas model adalah yang terakhir mendapatkannya.
Penerima manfaat paling jelas adalah pengguna perusahaan yang melakukan pekerjaan berbasis dokumen secara besar-besaran. Pada pengujian model spreadsheet internal, GPT-5.4 mencetak 87,3% dibandingkan GPT-5.2 yang 68,4%. Perusahaan riset hukum Harvey mengatakan model ini mendapatkan skor 91% dalam evaluasi BigLaw Bench. Mainstay, yang menjalankan agen di 30.000 portal pajak properti, melaporkan tingkat keberhasilan 95% pada percobaan pertama dan sesi berjalan sekitar “~3x lebih cepat dengan ~70% token lebih sedikit.” Itulah jenis argumen efisiensi yang mungkin penting bagi tim pengadaan perusahaan—tetapi lebih sulit untuk meyakinkan pengguna individu yang mempertimbangkan untuk menghapus akun mereka.