PANews melaporkan pada 27 Februari bahwa dalam keinginan industri untuk generasi baru model unggulan DeepSeek V4, tim DeepSeek diam-diam merilis makalah akademis baru. Makalah baru ini memperkenalkan sistem inferensi inovatif yang disebut DualPath, yang secara khusus dioptimalkan untuk kinerja inferensi model besar (LLM) di bawah beban kerja agen. Dengan memperkenalkan mekanisme “KV-Cache baca jalur ganda (mirip dengan cache memori)” untuk mendistribusikan kembali beban jaringan penyimpanan, throughput inferensi offline meningkat hingga 1,87 kali, dan jumlah agen yang menjalankan layanan online per detik meningkat rata-rata 1,96 kali. Makalah ini menyebutkan dalam pendahuluan bahwa model besar berkembang pesat dari robot percakapan putaran tunggal dan model penalaran independen menjadi sistem agen yang dapat secara mandiri merencanakan, memanggil alat, dan menyelesaikan tugas-tugas praktis melalui beberapa putaran interaksi. Pergeseran paradigma aplikasi ini telah mendorong perubahan besar dalam beban kerja inferensi model besar: dari interaksi model manusia-besar tradisional ke interaksi model-lingkungan manusia-besar, putaran interaksi dapat mencapai puluhan atau bahkan ratusan putaran.