DeepSeek bersama Tsinghua dan Beida menerbitkan makalah penting dan keras: Menguatkan infrastruktur dasar agen cerdas, menembus hambatan I/O inferensi Agen!
Menjelang peluncuran DeepSeek V4, makalah penting dan mendalam telah dirilis
Model besar sedang berkembang dari robot dialog satu putaran menjadi agen yang mampu merencanakan secara mandiri, memanggil alat, dan menyelesaikan masalah nyata. Namun, perubahan ini memicu gempa besar di arsitektur komputasi dasar.
Ketika model besar berinteraksi dengan lingkungan selama puluhan bahkan ratusan putaran dalam konteks jangka panjang, bottleneck komputasi beralih dari kekuatan GPU ke lebar pita I/O penyimpanan. Karena setiap kali hanya menambahkan sangat sedikit Token, tingkat keberhasilan KV-Cache sangat tinggi (biasanya lebih dari 95%), sehingga sebagian besar waktu GPU digunakan untuk menunggu pembacaan data KV-Cache dari penyimpanan eksternal yang besar.
Untuk mengatasi kebuntuan ini, DeepSeek bekerja sama dengan tim riset dari Peking University dan Tsinghua University mengusulkan sistem inferensi model besar yang baru—DualPath.
Sistem ini memperkenalkan mekanisme “pemuat KV-Cache jalur ganda” yang cerdas memanfaatkan lebar pita jaringan yang tidak terpakai di klaster, meningkatkan throughput inferensi offline hingga 1,87 kali lipat dan throughput layanan online rata-rata 1,96 kali lipat.
Saat ini, penelitian ini telah divalidasi secara besar-besaran di klaster dengan hingga 1152 GPU, mendukung model besar top seperti DeepSeek-V3.2 660B.
Mengapa muncul bottleneck I/O yang serius?
Untuk memahami inovasi DualPath, pertama-tama perlu melihat titik sakit dari arsitektur yang ada.
Dalam jejak agen yang tipikal, model menerima petunjuk yang berisi konteks sebelumnya dan Token yang baru ditambahkan, lalu menghasilkan langkah berikutnya.
Mode ini yang melibatkan banyak putaran dan penambahan singkat menyebabkan panjang konteks membengkak dengan cepat, bahkan bisa mencapai jutaan. Karena kapasitas memori (HBM) dan RAM (DRAM) terbatas, KV-Cache yang besar harus disimpan di penyimpanan eksternal yang lebih murah namun lebih lambat, seperti SSD.
Sistem inferensi model besar modern umumnya menggunakan arsitektur terpisah Prefill-Decode (Pre-fill dan decode). Node pre-fill khusus menangani petunjuk dan memuat KV-Cache yang cocok, sedangkan node decode bertugas menghasilkan Token satu per satu.
Masalah justru muncul di sini.
Seperti yang ditunjukkan di sebelah kiri Gambar 1, dalam sistem saat ini, semua KV-Cache langsung dimuat dari penyimpanan eksternal ke node pre-fill. Ini menyebabkan ketidakseimbangan ekstrem: bandwidth kartu jaringan penyimpanan (SNIC) pada node pre-fill benar-benar penuh, menjadi bottleneck utama sistem; sementara itu, node decode justru dalam keadaan sangat idle.
Selain itu, tren perkembangan hardware juga memperburuk konflik ini. Dari jalur evolusi hardware NVIDIA di sebelah kiri Gambar 3, terlihat bahwa pertumbuhan kekuatan komputasi GPU (FLOPS) jauh melampaui pertumbuhan bandwidth jaringan dan kapasitas memori video, menyebabkan ketidakseimbangan serius antara komputasi dan I/O.
DualPath: Mengatasi Batas Bandwidth dengan Jalur Ganda
Karena bandwidth penyimpanan pada node decode masih idle, mengapa tidak memanfaatkannya? Inilah inti dari gagasan DualPath.
Tim riset merombak arsitektur pemuatan KV-Cache, dan selain jalur tradisional penyimpanan->pre-fill, mereka membuka jalur baru “penyimpanan->decode->pre-fill” yang berfungsi sebagai jalur pemuatan ganda.
Jalur baca pre-fill: KV-Cache dibaca dari penyimpanan permanen ke buffer memori node pre-fill, kemudian dikirim ke memori GPU untuk proses, dan akhirnya KV-Cache lengkap diserahkan ke node decode.
Jalur baca decode: KV-Cache terlebih dahulu dibaca dari penyimpanan permanen ke buffer memori node decode. Pada tahap pre-fill, data ini dikirim ke node pre-fill melalui jaringan komputasi berkecepatan tinggi (menggunakan teknologi RDMA) secara streaming berlapis.
Dengan mendistribusikan secara dinamis aliran data kedua jalur ini, DualPath mengubah beban I/O dari satu node menjadi beban yang tersebar di seluruh sumber daya global, mengakumulasi bandwidth penyimpanan dari semua node secara efektif.
Mengatasi tantangan implementasi: isolasi lalu lintas dan penjadwalan dinamis
Ide ini sangat intuitif, tetapi untuk diterapkan dalam sistem inferensi model besar yang sangat sensitif terhadap latensi sub-milidetik, diperlukan solusi tantangan teknik yang kompleks.
Tantangan pertama adalah gangguan lalu lintas jaringan.
Penambahan transmisi KV-Cache secara ekstra sangat berisiko mengganggu komunikasi kolektif penting selama inferensi model (seperti operasi AllToAll dalam arsitektur MoE), yang dapat memperlambat keseluruhan proses.
Untuk itu, DualPath merancang mekanisme manajemen lalu lintas berbasis Network Interface Card (CNIC). Sistem memaksa semua lalu lintas masuk dan keluar GPU (termasuk transfer dari host ke perangkat) melalui CNIC, dan menggunakan mekanisme saluran virtual InfiniBand untuk mengatur kualitas layanan (QoS) secara ketat. Komunikasi inferensi model dialokasikan ke saluran prioritas tinggi yang menguasai 99% bandwidth, sementara transmisi KV-Cache dialokasikan ke saluran prioritas rendah yang hanya aktif saat jaringan komputasi sedang idle, sehingga tercapai isolasi lalu lintas yang sempurna.
Tantangan kedua adalah penyeimbangan beban secara dinamis.
Menghadapi permintaan yang kompleks dan berubah-ubah, sistem harus secara real-time menentukan jalur baca mana yang akan digunakan untuk setiap permintaan, sambil mempertimbangkan panjang antrean kartu jaringan dan beban komputasi GPU.
DualPath memperkenalkan scheduler permintaan adaptif (seperti yang ditunjukkan di Gambar 5). Scheduler ini tidak hanya memantau panjang antrean baca disk di setiap node, tetapi juga menggunakan jumlah Token sebagai indikator utama beban. Sistem membagi node menjadi tiga kategori: overload, antrean baca rendah, dan antrean baca tinggi, dan secara prioritas menugaskan tugas baru ke node dengan antrean baca yang lebih pendek dan tidak overload.
Selain itu, di dalam node, sistem juga melakukan penjadwalan berbasis perkiraan waktu eksekusi, mengelompokkan permintaan dengan waktu eksekusi serupa ke dalam satu batch, untuk meminimalkan waktu tunggu GPU saat menunggu sinkronisasi.
Throughput hampir dua kali lipat, mendukung skala ribuan
Tim riset melakukan evaluasi menyeluruh terhadap DualPath di klaster GPU NVIDIA Hopper yang dilengkapi jaringan InfiniBand dan penyimpanan terdistribusi 3FS. Model yang diuji meliputi DeepSeek-V3.2 660B, DS 27B, dan Qwen2.5-32B, dengan menggunakan data jejak lingkungan penguatan agen nyata.
Kinerja inferensi batch offline (seperti fase Rollout dalam pembelajaran penguatan):
Dalam berbagai pengaturan jumlah agen paralel dan panjang konteks maksimum, DualPath menunjukkan keunggulan yang luar biasa dibandingkan sistem baseline. Saat memproses model DeepSeek 660B, DualPath secara signifikan mempercepat waktu penyelesaian tugas, dengan peningkatan throughput hingga 1,87 kali lipat.
Dengan meningkatnya panjang Token yang ditambahkan setiap putaran atau variasi panjang generasi, DualPath tetap mampu mempertahankan peningkatan performa yang stabil, membuktikan keberhasilannya dalam mengatasi bottleneck jaringan penyimpanan.
Kinerja layanan online:
Dalam pengaturan dengan SLA (Service Level Agreement) ketat, di mana latensi awal harus di bawah 4 detik, kemampuan sistem dalam menangani permintaan mendadak sangat meningkat. DualPath mampu mendukung tingkat kedatangan permintaan (APS) hingga 2,25 kali lipat dari sistem baseline, sambil menjaga latensi generasi end-to-end yang sangat rendah. Eksperimen ablation menunjukkan bahwa mekanisme pemuatan jalur ganda dan penjadwalan adaptif adalah faktor utama peningkatan performa.
Skalabilitas besar:
Sistem ini tidak hanya unggul di klaster kecil, tetapi juga sangat skalabel saat menghadapi kekuatan komputasi besar. Pada pengujian dengan 1152 GPU (48 node pre-fill dan 96 node decode), DualPath tetap mampu mencapai peningkatan performa hampir linier.
Dengan merombak aliran data dasar, DualPath membuka jalan infrastruktur untuk era model agen yang besar dan cerdas, menuju inferensi super cepat.
Sumber artikel: AI Cambrian
Peringatan risiko dan ketentuan penafian
Pasar berisiko, investasi harus hati-hati. Artikel ini tidak merupakan saran investasi pribadi, dan tidak mempertimbangkan tujuan investasi, kondisi keuangan, atau kebutuhan khusus pengguna. Pengguna harus menilai apakah pendapat, pandangan, atau kesimpulan dalam artikel ini sesuai dengan kondisi mereka. Investasi sepenuhnya menjadi tanggung jawab pengguna.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
DeepSeek bersama Tsinghua dan Beida menerbitkan makalah penting dan keras: Menguatkan infrastruktur dasar agen cerdas, menembus hambatan I/O inferensi Agen!
Menjelang peluncuran DeepSeek V4, makalah penting dan mendalam telah dirilis
Model besar sedang berkembang dari robot dialog satu putaran menjadi agen yang mampu merencanakan secara mandiri, memanggil alat, dan menyelesaikan masalah nyata. Namun, perubahan ini memicu gempa besar di arsitektur komputasi dasar.
Ketika model besar berinteraksi dengan lingkungan selama puluhan bahkan ratusan putaran dalam konteks jangka panjang, bottleneck komputasi beralih dari kekuatan GPU ke lebar pita I/O penyimpanan. Karena setiap kali hanya menambahkan sangat sedikit Token, tingkat keberhasilan KV-Cache sangat tinggi (biasanya lebih dari 95%), sehingga sebagian besar waktu GPU digunakan untuk menunggu pembacaan data KV-Cache dari penyimpanan eksternal yang besar.
Untuk mengatasi kebuntuan ini, DeepSeek bekerja sama dengan tim riset dari Peking University dan Tsinghua University mengusulkan sistem inferensi model besar yang baru—DualPath.
Sistem ini memperkenalkan mekanisme “pemuat KV-Cache jalur ganda” yang cerdas memanfaatkan lebar pita jaringan yang tidak terpakai di klaster, meningkatkan throughput inferensi offline hingga 1,87 kali lipat dan throughput layanan online rata-rata 1,96 kali lipat.
Saat ini, penelitian ini telah divalidasi secara besar-besaran di klaster dengan hingga 1152 GPU, mendukung model besar top seperti DeepSeek-V3.2 660B.
Mengapa muncul bottleneck I/O yang serius?
Untuk memahami inovasi DualPath, pertama-tama perlu melihat titik sakit dari arsitektur yang ada.
Dalam jejak agen yang tipikal, model menerima petunjuk yang berisi konteks sebelumnya dan Token yang baru ditambahkan, lalu menghasilkan langkah berikutnya.
Mode ini yang melibatkan banyak putaran dan penambahan singkat menyebabkan panjang konteks membengkak dengan cepat, bahkan bisa mencapai jutaan. Karena kapasitas memori (HBM) dan RAM (DRAM) terbatas, KV-Cache yang besar harus disimpan di penyimpanan eksternal yang lebih murah namun lebih lambat, seperti SSD.
Sistem inferensi model besar modern umumnya menggunakan arsitektur terpisah Prefill-Decode (Pre-fill dan decode). Node pre-fill khusus menangani petunjuk dan memuat KV-Cache yang cocok, sedangkan node decode bertugas menghasilkan Token satu per satu.
Masalah justru muncul di sini.
Seperti yang ditunjukkan di sebelah kiri Gambar 1, dalam sistem saat ini, semua KV-Cache langsung dimuat dari penyimpanan eksternal ke node pre-fill. Ini menyebabkan ketidakseimbangan ekstrem: bandwidth kartu jaringan penyimpanan (SNIC) pada node pre-fill benar-benar penuh, menjadi bottleneck utama sistem; sementara itu, node decode justru dalam keadaan sangat idle.
Selain itu, tren perkembangan hardware juga memperburuk konflik ini. Dari jalur evolusi hardware NVIDIA di sebelah kiri Gambar 3, terlihat bahwa pertumbuhan kekuatan komputasi GPU (FLOPS) jauh melampaui pertumbuhan bandwidth jaringan dan kapasitas memori video, menyebabkan ketidakseimbangan serius antara komputasi dan I/O.
DualPath: Mengatasi Batas Bandwidth dengan Jalur Ganda
Karena bandwidth penyimpanan pada node decode masih idle, mengapa tidak memanfaatkannya? Inilah inti dari gagasan DualPath.
Tim riset merombak arsitektur pemuatan KV-Cache, dan selain jalur tradisional penyimpanan->pre-fill, mereka membuka jalur baru “penyimpanan->decode->pre-fill” yang berfungsi sebagai jalur pemuatan ganda.
Jalur baca pre-fill: KV-Cache dibaca dari penyimpanan permanen ke buffer memori node pre-fill, kemudian dikirim ke memori GPU untuk proses, dan akhirnya KV-Cache lengkap diserahkan ke node decode.
Jalur baca decode: KV-Cache terlebih dahulu dibaca dari penyimpanan permanen ke buffer memori node decode. Pada tahap pre-fill, data ini dikirim ke node pre-fill melalui jaringan komputasi berkecepatan tinggi (menggunakan teknologi RDMA) secara streaming berlapis.
Dengan mendistribusikan secara dinamis aliran data kedua jalur ini, DualPath mengubah beban I/O dari satu node menjadi beban yang tersebar di seluruh sumber daya global, mengakumulasi bandwidth penyimpanan dari semua node secara efektif.
Mengatasi tantangan implementasi: isolasi lalu lintas dan penjadwalan dinamis
Ide ini sangat intuitif, tetapi untuk diterapkan dalam sistem inferensi model besar yang sangat sensitif terhadap latensi sub-milidetik, diperlukan solusi tantangan teknik yang kompleks.
Tantangan pertama adalah gangguan lalu lintas jaringan.
Penambahan transmisi KV-Cache secara ekstra sangat berisiko mengganggu komunikasi kolektif penting selama inferensi model (seperti operasi AllToAll dalam arsitektur MoE), yang dapat memperlambat keseluruhan proses.
Untuk itu, DualPath merancang mekanisme manajemen lalu lintas berbasis Network Interface Card (CNIC). Sistem memaksa semua lalu lintas masuk dan keluar GPU (termasuk transfer dari host ke perangkat) melalui CNIC, dan menggunakan mekanisme saluran virtual InfiniBand untuk mengatur kualitas layanan (QoS) secara ketat. Komunikasi inferensi model dialokasikan ke saluran prioritas tinggi yang menguasai 99% bandwidth, sementara transmisi KV-Cache dialokasikan ke saluran prioritas rendah yang hanya aktif saat jaringan komputasi sedang idle, sehingga tercapai isolasi lalu lintas yang sempurna.
Tantangan kedua adalah penyeimbangan beban secara dinamis.
Menghadapi permintaan yang kompleks dan berubah-ubah, sistem harus secara real-time menentukan jalur baca mana yang akan digunakan untuk setiap permintaan, sambil mempertimbangkan panjang antrean kartu jaringan dan beban komputasi GPU.
DualPath memperkenalkan scheduler permintaan adaptif (seperti yang ditunjukkan di Gambar 5). Scheduler ini tidak hanya memantau panjang antrean baca disk di setiap node, tetapi juga menggunakan jumlah Token sebagai indikator utama beban. Sistem membagi node menjadi tiga kategori: overload, antrean baca rendah, dan antrean baca tinggi, dan secara prioritas menugaskan tugas baru ke node dengan antrean baca yang lebih pendek dan tidak overload.
Selain itu, di dalam node, sistem juga melakukan penjadwalan berbasis perkiraan waktu eksekusi, mengelompokkan permintaan dengan waktu eksekusi serupa ke dalam satu batch, untuk meminimalkan waktu tunggu GPU saat menunggu sinkronisasi.
Throughput hampir dua kali lipat, mendukung skala ribuan
Tim riset melakukan evaluasi menyeluruh terhadap DualPath di klaster GPU NVIDIA Hopper yang dilengkapi jaringan InfiniBand dan penyimpanan terdistribusi 3FS. Model yang diuji meliputi DeepSeek-V3.2 660B, DS 27B, dan Qwen2.5-32B, dengan menggunakan data jejak lingkungan penguatan agen nyata.
Kinerja inferensi batch offline (seperti fase Rollout dalam pembelajaran penguatan):
Dalam berbagai pengaturan jumlah agen paralel dan panjang konteks maksimum, DualPath menunjukkan keunggulan yang luar biasa dibandingkan sistem baseline. Saat memproses model DeepSeek 660B, DualPath secara signifikan mempercepat waktu penyelesaian tugas, dengan peningkatan throughput hingga 1,87 kali lipat.
Dengan meningkatnya panjang Token yang ditambahkan setiap putaran atau variasi panjang generasi, DualPath tetap mampu mempertahankan peningkatan performa yang stabil, membuktikan keberhasilannya dalam mengatasi bottleneck jaringan penyimpanan.
Kinerja layanan online:
Dalam pengaturan dengan SLA (Service Level Agreement) ketat, di mana latensi awal harus di bawah 4 detik, kemampuan sistem dalam menangani permintaan mendadak sangat meningkat. DualPath mampu mendukung tingkat kedatangan permintaan (APS) hingga 2,25 kali lipat dari sistem baseline, sambil menjaga latensi generasi end-to-end yang sangat rendah. Eksperimen ablation menunjukkan bahwa mekanisme pemuatan jalur ganda dan penjadwalan adaptif adalah faktor utama peningkatan performa.
Skalabilitas besar:
Sistem ini tidak hanya unggul di klaster kecil, tetapi juga sangat skalabel saat menghadapi kekuatan komputasi besar. Pada pengujian dengan 1152 GPU (48 node pre-fill dan 96 node decode), DualPath tetap mampu mencapai peningkatan performa hampir linier.
Dengan merombak aliran data dasar, DualPath membuka jalan infrastruktur untuk era model agen yang besar dan cerdas, menuju inferensi super cepat.
Sumber artikel: AI Cambrian
Peringatan risiko dan ketentuan penafian