DeepSeek V4 Ada di Sini—Versi Pro-nya Harganya 98% Lebih Murah Daripada GPT 5.5 Pro

###Singkatnya

  • DeepSeek merilis model V4-Pro baru dengan 1,6 triliun parameter.
  • Harganya $1,74/$3,48 per juta token input/output, sekitar 1/20 harga Claude Opus 4.7 dan 98% lebih murah dari GPT 5.5 Pro.
  • DeepSeek melatih V4 sebagian menggunakan chip Huawei Ascend, menghindari pembatasan ekspor AS, dan mengatakan bahwa setelah 950 supernode baru online akhir 2026, harga model Pro yang sudah rendah akan turun lebih jauh.

DeepSeek kembali, dan muncul beberapa jam setelah OpenAI merilis GPT-5.5. Kebetulan? Mungkin. Tapi jika Anda adalah lab AI China yang selama tiga tahun terakhir berusaha diperlambat oleh larangan ekspor chip dari pemerintah AS, rasa waktu Anda menjadi sangat tajam. Lab yang berbasis di Hangzhou ini merilis versi pratinjau DeepSeek-V4-Pro dan DeepSeek-V4-Flash hari ini, keduanya dengan bobot terbuka, keduanya dengan jendela konteks satu juta token. Itu berarti Anda pada dasarnya bisa bekerja dengan konteks sekitar ukuran Trilogi Lord of the Rings sebelum modelnya kolaps. Keduanya juga dihargai jauh di bawah apa pun yang sebanding di Barat, dan keduanya gratis bagi yang mampu menjalankan secara lokal. Disrupsi besar terakhir DeepSeek—R1 pada Januari 2025—menghapus $600 miliar dari kapitalisasi pasar Nvidia dalam satu hari saat investor mempertanyakan apakah perusahaan Amerika benar-benar membutuhkan investasi sebesar itu untuk menghasilkan hasil yang dicapai oleh lab kecil China dengan sebagian kecil biaya. V4 adalah langkah yang berbeda: lebih tenang, lebih teknis, dan lebih fokus pada efisiensi bagi siapa saja yang benar-benar membangun dengan AI.

Dua model, pekerjaan yang sangat berbeda  Dari kedua model baru ini, DeepSeek’s V4-Pro adalah yang besar, dengan total 1,6 triliun parameter. Untuk memberi gambaran, parameter adalah “pengaturan” internal atau “sel otak” yang digunakan model untuk menyimpan pengetahuan dan mengenali pola—semakin banyak parameter, semakin kompleks informasi yang secara teoretis dapat disimpan. Itu menjadikannya model sumber terbuka terbesar di pasar LLM hingga saat ini. Ukurannya mungkin terdengar konyol sampai Anda tahu bahwa model ini hanya mengaktifkan 49 miliar dari mereka per satu inferensi. Ini adalah trik Campuran Ahli yang telah disempurnakan DeepSeek sejak V3: Model lengkap tetap ada, tetapi hanya bagian relevan yang bangun untuk setiap permintaan. Pengetahuan lebih banyak, tagihan komputasi sama. “DeepSeek-V4-Pro-Max, mode usaha penalaran maksimal dari DeepSeek-V4-Pro, secara signifikan meningkatkan kemampuan pengetahuan model sumber terbuka, dan dengan tegas menegaskan dirinya sebagai model sumber terbuka terbaik yang tersedia hari ini,” tulis Deepseek dalam kartu resmi model di Huggingface. “Ini mencapai performa tingkat atas dalam tolok ukur pengkodean dan secara signifikan menjembatani kesenjangan dengan model tertutup terkemuka dalam penalaran dan tugas agenik.” V4-Flash adalah yang praktis: 284 miliar parameter total, 13 miliar aktif. Dirancang agar lebih cepat, lebih murah, dan menurut tolok ukur DeepSeek sendiri, “mencapai performa penalaran yang sebanding dengan versi Pro saat diberikan anggaran berpikir yang lebih besar.”

Keduanya mendukung satu juta token konteks. Itu sekitar 750.000 kata—sekitar seluruh trilogi “Lord of the Rings” plus sedikit lagi. Dan itu sebagai fitur standar, bukan tingkat premium. Rahasia besar Deepseek: Membuat perhatian tidak buruk dalam skala besar Ini bagian teknis untuk para nerd atau mereka yang tertarik dengan sihir yang mendukung model. Deepseek tidak menyembunyikan rahasianya, dan semuanya tersedia secara gratis—makalah lengkap tersedia di Github. Perhatian AI standar—mekanisme yang memungkinkan model memahami hubungan antar kata—memiliki masalah skala yang brutal. Setiap kali Anda menggandakan panjang konteks, biaya komputasi kira-kira empat kali lipat. Jadi menjalankan model dengan satu juta token tidak hanya dua kali lebih mahal dari 500.000 token. Itu empat kali lebih mahal. Inilah sebabnya konteks panjang secara historis menjadi checkbox yang ditambahkan lab dan kemudian diam-diam dikurangi melalui batasan kecepatan. DeepSeek menciptakan dua jenis perhatian baru untuk mengatasi ini. Yang pertama, Compressed Sparse Attention, bekerja dalam dua langkah. Pertama, mengompresi kelompok token—misalnya, setiap 4 token—menjadi satu entri. Kemudian, alih-alih memperhatikan semua entri yang dikompresi itu, menggunakan “Lightning Indexer” untuk memilih hanya hasil yang paling relevan untuk setiap kueri. Model Anda dari memperhatikan satu juta token menjadi memperhatikan kumpulan yang jauh lebih kecil dari potongan terpenting, seperti pustakawan yang tidak membaca setiap buku tetapi tahu persis rak mana yang harus diperiksa. Yang kedua, Heavily Compressed Attention, lebih agresif. Ia merangkum setiap 128 token menjadi satu entri—tanpa seleksi sparse, hanya kompresi brutal. Anda kehilangan detail halus, tetapi mendapatkan pandangan global yang sangat murah. Kedua jenis perhatian ini berjalan di lapisan bergantian, sehingga model mendapatkan baik detail maupun gambaran umum.

Hasilnya, dari makalah teknis: Pada satu juta token, V4-Pro menggunakan 27% dari komputasi yang dibutuhkan pendahulunya (V3.2). Cache KV—memori yang dibutuhkan model untuk melacak konteks—menurun menjadi hanya 10% dari V3.2. V4-Flash melangkah lebih jauh: 10% dari komputasi, 7% dari memori. Dan ini membuat Deepseek mampu menawarkan harga per token yang jauh lebih murah daripada pesaingnya, sambil memberikan hasil yang sebanding. Dalam istilah dolar: GPT-5.5 diluncurkan kemarin dengan (input dan )output per juta token dengan GPT-5.5 Pro dihargai $5 per juta input token dan $30 per juta output token.

Deepseek V4-Pro adalah $1,74 input dan $3,48 output. V4-Flash adalah $0,14 input dan $0,28 output. CEO Cline Saoud Rizwan menunjukkan bahwa jika Uber menggunakan DeepSeek alih-alih Claude, anggaran AI mereka tahun 2026—yang dilaporkan cukup untuk empat bulan penggunaan—akan bertahan selama tujuh tahun.

deepseek v4 sekarang adalah model sota termurah yang tersedia dengan biaya 1/20 Opus 4.7.

untuk gambaran, jika Uber menggunakan deepseek alih-alih claude, anggaran AI mereka tahun 2026 akan bertahan 7 tahun alih-alih hanya 4 bulan. pic.twitter.com/i9rJZzvRBV

— Saoud Rizwan $30 @sdrzn$180 24 April 2026

Benchmark-nya DeepSeek melakukan sesuatu yang tidak biasa dalam laporan teknisnya: Ia mempublikasikan kesenjangan. Kebanyakan rilis model memilih benchmark di mana mereka menang. DeepSeek menjalankan perbandingan lengkap melawan GPT-5.4 dan Gemini-3.1-Pro, menemukan bahwa penalaran V4-Pro tertinggal sekitar tiga sampai enam bulan dari model tersebut, dan tetap dipublikasikan. Di mana V4-Pro-Max benar-benar unggul: Codeforces, tolok ukur pemrograman kompetitif, dinilai seperti catur manusia. V4-Pro mendapatkan skor 3.206, menempatkannya sekitar 23 besar di antara peserta kontes manusia. Di Apex Shortlist, kumpulan soal matematika dan STEM yang sulit, ia mendapatkan tingkat keberhasilan dan mencapai 90,2% dibandingkan Opus 4.6 yang 85,9% dan GPT-5.4 yang 78,1%. Di SWE-Verified, yang mengukur apakah model dapat menyelesaikan masalah nyata dari GitHub yang diambil dari repositori open-source, ia mendapatkan 80,6%—menyamai Claude Opus 4.6.

Di mana model ini tertinggal: tolok ukur multitasking MMLU-Pro (Gemini-3.1-Pro dengan 91,0% vs V4-Pro dengan 87,5%), tolok ukur pengetahuan ahli GPQA Diamond (Gemini 94,3 vs V4-Pro 90,1), dan Ujian Terakhir Humanity, tolok ukur tingkat pascasarjana di mana Gemini-3.1-Pro dengan 44,4% masih mengalahkan V4-Pro dengan 37,7%. Secara khusus pada konteks panjang, V4-Pro memimpin model sumber terbuka dan mengalahkan Gemini-3.1-Pro di tolok ukur CorpusQA (tes analisis dokumen nyata dengan satu juta token), tetapi kalah dari Claude Opus 4.6 di MRCR—tes yang mengukur seberapa baik model dapat mengambil jarum tertentu yang tersembunyi dalam tumpukan jerami yang sangat panjang. Dibuat untuk menjalankan agen, bukan hanya menjawab pertanyaan Bagian agenik inilah yang membuat rilis ini menarik bagi pengembang yang benar-benar mengirimkan produk.

V4-Pro dapat dijalankan di Claude Code, OpenCode, dan alat pengkodean AI lainnya. Menurut survei internal DeepSeek dari 85 pengembang yang menggunakan V4-Pro sebagai agen pengkodean utama mereka, 52% mengatakan model ini siap menjadi model default mereka, 39% condong ke ya, dan kurang dari 9% mengatakan tidak. Karyawan internal mengatakan bahwa model ini mengungguli Claude Sonnet dan mendekati Claude Opus 4.5 dalam tugas pengkodean agenik.

Artificial Analysis, yang menjalankan evaluasi independen terhadap model AI dalam tugas dunia nyata, menempatkan V4-Pro pertama di antara semua model bobot terbuka di GDPval-AA—tolok ukur yang menguji pekerjaan pengetahuan bernilai ekonomi di bidang keuangan, hukum, dan riset, dinilai melalui Elo. V4-Pro-Max mendapatkan skor 1.554 Elo, mengungguli GLM-5.1 (1.535) dan MiniMax M2.7 (1.514). Sebagai referensi, Claude Opus 4.6 mendapatkan 1.619 di tolok ukur yang sama—masih unggul, tetapi jaraknya semakin dekat.

DeepSeek V4 Pro adalah model bobot terbuka nomor 1 di GDPval-AA, evaluasi pekerjaan dunia nyata berbasis agen kami@deepseek_ai merilis V4 Pro (1,6T total / 49B aktif) dan V4 Flash (284B total / 13B aktif). V4 adalah ukuran baru pertama DeepSeek sejak V3, dengan semua model perantara… pic.twitter.com/2kJWVrKQjF

— Artificial Analysis (@ArtificialAnlys) 24 April 2026

V4 dari Deepseek juga memperkenalkan sesuatu yang disebut “berpikir berselang-seling.” Pada model sebelumnya, jika Anda menjalankan agen yang melakukan beberapa panggilan alat—misalnya, mencari web, lalu menjalankan kode, lalu mencari lagi—konteks penalaran model akan dibersihkan di antara putaran. Setiap langkah baru, model harus membangun kembali model mentalnya dari awal. V4 mempertahankan rantai pemikiran lengkap selama panggilan alat, sehingga alur kerja agen 20 langkah tidak mengalami amnesia di tengah jalan. Ini lebih penting dari yang terdengar bagi siapa saja yang menjalankan pipeline otomatis kompleks. Deepseek dan perang AI AS-China AS telah membatasi ekspor chip Nvidia kelas atas ke China sejak 2022. Tujuannya adalah memperlambat pengembangan AI China, tetapi larangan chip ini tidak menghentikan DeepSeek dan malah memaksa mereka menciptakan arsitektur yang lebih efisien dan membangun pasokan hardware domestik. DeepSeek tidak merilis V4 dalam kekosongan—dunia AI belakangan ini penuh aktivitas: Anthropic merilis Claude Opus 4.7 pada 16 April—model yang Decrypt uji dan temukan kuat dalam pengkodean dan penalaran, dengan penggunaan token yang tinggi. Sehari sebelumnya, Anthropic juga memiliki Claude Mythos, model keamanan siber yang dikatakan tidak bisa dirilis secara publik karena terlalu bagus dalam serangan jaringan otomatis. Xiaomi merilis MiMo V2.5 Pro pada 22 April, dengan multimodal penuh—gambar, audio, video. Biayanya (input dan )output per juta token. Model ini cocok dengan Opus 4.6 di sebagian besar tolok ukur pengkodean. Tiga bulan lalu, tidak ada yang membicarakan Xiaomi sebagai perusahaan AI frontier. Sekarang mereka mengirim model kompetitif lebih cepat dari kebanyakan lab Barat.

GPT-5.5 dari OpenAI diluncurkan kemarin dengan biaya yang melonjak hingga $1 per juta token output di versi Pro. Model ini mengalahkan V4-Pro di Terminal Bench 2.0 $3 82,7% vs 70,0%$180 , yang menguji alur kerja agen baris perintah yang kompleks. Tapi biayanya jauh lebih tinggi daripada V4-Pro untuk tugas yang setara. Hari yang sama, Tencent merilis Hy3, model state-of-the-art lain yang fokus pada efisiensi. Apa arti semua ini untuk Anda Jadi, dengan begitu banyak model baru yang tersedia, pertanyaan yang sebenarnya diajukan pengembang: Kapan premium itu layak? Untuk perusahaan, matematikanya mungkin telah berubah. Model yang memimpin tolok ukur sumber terbuka dengan harga $1,74 per juta token input berarti proses dokumen berskala besar, tinjauan hukum, atau pipeline pembuatan kode yang dulu mahal enam bulan lalu kini jauh lebih murah. Konteks satu juta token berarti Anda bisa memasukkan seluruh basis kode atau dokumen regulasi dalam satu permintaan alih-alih membaginya ke beberapa panggilan. Selain itu, sifat sumber terbukanya berarti model ini tidak hanya bisa dijalankan secara gratis di hardware lokal, tetapi juga dapat disesuaikan dan ditingkatkan sesuai kebutuhan dan kasus penggunaan perusahaan. Bagi pengembang dan pembangun solo, V4-Flash adalah yang harus diperhatikan. Dengan $0,14 input dan $0,28 output, ini lebih murah dari model yang dianggap anggaran satu tahun lalu—dan mampu menangani sebagian besar tugas yang dilakukan versi Pro. Endpoint deepseek-chat dan deepseek-reasoner yang ada sudah mengarahkan ke V4-Flash dalam mode non-berpikir dan berpikir masing-masing, jadi jika Anda menggunakan API-nya, Anda sudah menggunakannya. Model-model ini saat ini hanya teks. DeepSeek mengatakan sedang mengerjakan kemampuan multimodal, yang berarti lab besar lain dari Xiaomi hingga OpenAI masih memiliki keunggulan tersebut. Kedua model ini berlisensi MIT dan tersedia di Hugging Face hari ini. Endpoint deepseek-chat dan deepseek-reasoner yang lama akan dihentikan pada 24 Juli 2026.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan