DeepSeek Merilis Seri Model Open-Source V4 dengan 1,6T Parameter dan Lisensi MIT

Pesan Gate News, 24 April — DeepSeek telah merilis seri model open-source V4 di bawah Lisensi MIT, dengan bobot kini tersedia di Hugging Face dan ModelScope. Seri ini mencakup dua model (MoE) mixture-of-experts: V4-Pro dengan total parameter 1,6 triliun dan 49 miliar yang diaktifkan per token, serta V4-Flash dengan total parameter 284 miliar dan 13 miliar yang diaktifkan per token. Keduanya mendukung jendela konteks 1 juta token.

Arsitekturnya menampilkan tiga peningkatan kunci: mekanisme attention hibrida yang menggabungkan compressed sparse attention (CSA) dan heavily compressed attention (HCA) yang secara signifikan mengurangi overhead untuk konteks panjang—FLOPs inferensi V4-Pro untuk konteks 1M hanya 27% dari V3.2, dan KV cache (VRAM untuk menyimpan informasi historis selama inferensi) hanya 10% dari V3.2; manifold-constrained hyperconnections (mHC) menggantikan residual connection tradisional untuk meningkatkan stabilitas propagasi sinyal lintas-lapis; dan optimizer Muon untuk konvergensi pelatihan yang lebih cepat. Pra-pelatihan menggunakan lebih dari 32 triliun token data.

Pascapelatihan menggunakan pendekatan dua tahap: pertama melatih expert khusus domain melalui supervised fine-tuning (SFT) dan reinforcement learning GRPO, lalu menggabungkannya menjadi satu model melalui distilasi online. V4-Pro-Max (highest inference mode) mengklaim sebagai model open-source terkuat dengan benchmark coding kelas atas dan kesenjangan yang secara signifikan dipersempit dibandingkan model frontier closed-source dalam tugas penalaran dan agen. V4-Flash-Max mencapai performa penalaran level Pro dengan anggaran komputasi yang cukup, tetapi dibatasi oleh skala parameter pada pengetahuan murni dan tugas agen yang kompleks. Bobot disimpan dalam presisi campuran FP4+FP8.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

V4-Pro Mencapai Tingkat Lolos Kode 67% dalam Uji Dogfooding Internal, Mendekati Performa Opus 4.5

Pesan Berita Gate, 24 April — V4 telah mengungkapkan secara publik data internal dogfooding untuk model V4-Pro-nya. Perusahaan mengumpulkan sekitar 200 tugas rekayasa dunia nyata dari lebih dari 50 insinyur, mencakup pengembangan fitur, perbaikan bug, refactoring, dan diagnostik di berbagai tumpukan teknologi termasuk

GateNews8menit yang lalu

UK Menyoroti AI Anthropic untuk Memperkuat Keamanan Siber Perbankan

Inggris Raya sedang menjajaki langkah besar dalam keamanan siber keuangan dengan bekerja sama dengan perusahaan AI Anthropic. Pembahasan awal menunjukkan bahwa pemerintah mungkin akan menerapkan model Claude Mythos canggih dari Anthropic di seluruh bank dan institusi keuangan. Langkah ini bertujuan untuk meningkatkan pertahanan karena ancaman siber

CryptometerIo13menit yang lalu

Kantor Kekayaan Intelektual Tiongkok Menambahkan AI, Semikonduktor, dan Antarmuka Otak-Komputer ke Program Perlindungan Jalur Cepat

Pesan Berita Gate, 24 April — Administrasi Kekayaan Intelektual Nasional Tiongkok mengumumkan pada 24 April bahwa pihaknya akan membangun perlindungan kekayaan intelektual yang komprehensif untuk teknologi yang berkembang melalui reformasi institusional, layanan yang ditingkatkan, dan perluasan penerapan. Administrasi tersebut wi

GateNews20menit yang lalu

Pemerintah AS Mengoperasikan Node Bitcoin Tanpa Penambangan, Indikasi Admiral

Seorang laksamana senior telah mengindikasikan bahwa Pemerintah AS secara aktif mengoperasikan sebuah node di jaringan Bitcoin sambil dengan sengaja menghindari partisipasi dalam aktivitas penambangan. Pengungkapan tersebut menunjukkan bahwa otoritas mengambil peran yang lebih terlibat dalam infrastruktur blockchain untuk pengawasan dan

CryptoFrontier36menit yang lalu

Pendapatan Tesla Kuartal I Naik 16% menjadi $22,4B; Robot Humanoid Rencananya Debut pada Pertengahan 2026

Berita Pintu Gerbang, 24 April — Tesla melaporkan pendapatan kuartal pertama sebesar US$22,4 miliar pada 23 April, yang mencerminkan kenaikan 16% dari tahun ke tahun. Pengiriman kendaraan global perusahaan melebihi 358.000 unit, sementara produksinya mencapai lebih dari 408.000 unit. Pabrik Gigafactory Shanghai Tesla mengirimkan 213.000 vehicl

GateNews36menit yang lalu

Laba SK Hynix Kuartal I Melonjak Lima Kali Lipat Jadi Rekor Berkat Booming AI, Meningkatkan Bonus Karyawan hingga $878K

Berita Gate, 24 April — SK Hynix melaporkan lonjakan lima kali lipat laba operasi kuartalan menjadi rekor 37,61 triliun won ($32,4 miliar) pada 23 April, didorong oleh permintaan yang melonjak dari kecerdasan buatan dan pusat data. Keuntungan tersebut membiayai bonus karyawan yang belum pernah terjadi sebelumnya, yang diproyeksikan para analis dapat mencapai hingga $878.000 per karyawan pada 2027 jika perkiraan pendapatan saat ini tetap.

GateNews1jam yang lalu
Komentar
0/400
Tidak ada komentar