DeepSeek聯合清北重磅硬核論文：發力智能體底層基建，擊穿Agent推理I/O瓶頸！

快照民工

2026-02-26 21:06:00

摘要生成中

DeepSeek V4發布前夕硬核重磅論文上線

大模型正在從單輪對話機器人，快速進化為能自主規劃、調用工具並解決實際問題的Agent。然而，這種轉變在底層算力架構上引發了一場大地震。

當大模型在長期的上下文中與環境進行數十甚至上百輪的交互時，計算的瓶頸從GPU的算力轉為存儲I/O帶寬。由於每次只追加極少的Token，導致KV-Cache命中率極高（通常大於95%），GPU大量的時間被用來等待從外部存儲中讀取海量的歷史KV-Cache數據。

為了打破這一僵局，DeepSeek聯合北大、清華研究團隊提出了一種全新的大模型推理系統——DualPath。

該系統通過引入“双路徑KV-Cache加載”機制，巧妙利用了集群中閒置的網絡帶寬，將Agentic大模型負載的離線推理吞吐量提升了最高1.87倍，線上服務吞吐量平均提升了1.96倍。

目前，這項研究已在包含多達1152張GPU的集群上完成了大規模驗證，支持DeepSeek-V3.2 660B等頂級大模型。

為什麼會出現嚴重的I/O瓶頸？

要理解DualPath的創新點，首先需要看清現有架構的痛點。

在典型的智能體軌跡中，模型會接收一段包含先前上下文和新追加Token的提示詞，然後生成下一步動作。

這種多輪次、短追加的模式，讓上下文長度极速膨脹，甚至可以達到百萬級別。由於顯存（HBM）和內存（DRAM）容量有限，海量的KV-Cache必須存放在更便宜但速度較慢的SSD外部存儲中。

現代大模型推理系統普遍採用Prefill-Decode（預填充-解碼）分離架構。預填充節點專門負責處理提示詞並加載命中的KV-Cache，解碼節點則負責逐個生成Token。

問題恰恰出在這裡。

正如圖1左側所示，在現有系統中，所有的KV-Cache都直接從外部存儲加載到預填充節點。這導致了一個極端的失衡：預填充節點的存儲網卡（SNIC）帶寬被徹底跑滿，成為了整個系統的絕對瓶頸；而與此同時，解碼節點的存儲網卡卻處於大規模閒置狀態。

此外，硬件的發展趨勢也加劇了這一矛盾。從圖3左側的NVIDIA硬件演進路線可以看出，GPU的計算力（FLOPS）增長速度遠遠甩開了網絡帶寬和顯存容量的增長，導致計算與I/O的比例嚴重失衡。

DualPath：雙路徑打破帶寬天花板

既然解碼節點的存儲帶寬閒著，為什麼不把它利用起來？這正是DualPath的核心思想。

研究團隊重構了KV-Cache的加載架構，在傳統的存儲->預填充路徑之外，開辟了一條全新的“存儲->解碼->預填充”雙路徑加載通道。

1.預填充讀取路徑：KV-Cache從持久化存儲讀入預填充節點的內存緩衝，再傳輸到GPU顯存進行計算，最後把完整的KV-Cache傳給解碼節點。

2.解碼讀取路徑：KV-Cache先從持久化存儲讀入解碼節點的內存緩衝。在預填充階段，這部分數據通過節點間的高速計算網絡（採用RDMA技術），以層級流式傳輸的方式發送給預填充節點參與計算。

通過動態分配這兩條路徑的數據流量，DualPath將原本單一節點的I/O壓力，轉化為全局資源池化的負載分擔，從而成功聚合了所有節點的存儲帶寬。

克服落地挑戰：流量隔離與動態調度

想法很直觀，但在亞毫秒級延遲極其敏感的大模型推理系統中落地，需要解決極具挑戰性的工程難題。

第一個挑戰是網絡流量的干擾。

引入額外的KV-Cache傳輸，極易與模型推理過程中關鍵的集合通信（如MoE架構中的AllToAll操作）發生衝突，拖慢整體推理速度。

对此，DualPath設計了以計算網卡（CNIC）為中心的流量管理機制。系統將所有進出GPU的流量（包括主機到設備的拷貝）強制通過計算網卡，並利用底層網絡（如InfiniBand的虛擬通道機制）實施嚴格的服務質量（QoS）控制。模型推理通信被分配到擁有99%帶寬的高優先級通道，而KV-Cache傳輸則被分配到低優先級通道，僅在計算網絡的空閒間隙見縫插針地傳輸，實現了完美的流量隔離。

第二個挑戰是動態負載均衡。

面對複雜多變的請求，系統必須實時決定為每個請求選擇哪條讀取路徑，同時兼顧網卡隊列長度和GPU計算負載。

DualPath引入了自適應請求調度器（工作原理如圖5所示）。該調度器不僅會監控各個節點的磁盤讀取隊列長度，還會將Token數量作為衡量負載的核心指標。系統將計算節點劃分為過載、低讀取隊列和高讀取隊列三類，優先將新任務分配給讀取隊列較短且未過載的節點。

同時，在節點內部，系統還會基於時間預估機制進行調度，將執行時間相近的請求打包到同一個批次中，最大程度減少GPU在等待同步時產生的計算氣泡。

吞吐量接近翻倍，支持千卡規模擴展

研究團隊在擁有InfiniBand網絡和3FS分佈式存儲的NVIDIA Hopper GPU集群上對DualPath進行了全面評估。測試模型涵蓋了DeepSeek-V3.2 660B、DS 27B以及Qwen2.5-32B，並使用了真實的智能體強化學習環境軌跡數據集。

離線批量推理表現（如強化學習的Rollout階段）：

在不同智能體並發數和最大上下文長度的設置下，DualPath相較於基線系統展現出碾壓優勢。在處理DeepSeek 660B模型時，DualPath將任務完成時間大幅縮短，吞吐量最高提升了1.87倍。

隨著每輪追加Token長度的增加或生成長度的變化，DualPath依然能夠保持穩定的性能提升，證明其成功消除了存儲網絡瓶頸。

線上服務表現：

在設定了嚴格的延遲服務等級協議（首字延遲小於4秒）的前提下，系統應對突發請求的能力得到了極大增強。DualPath能支撐的請求到達率（APS）相比基線系統提升了最高2.25倍，同時保持了極低的端到端生成延遲。消融實驗進一步證實，雙路徑加載機制和自適應調度算法是性能提升的最關鍵因素。

大規模擴展性：

該系統不僅在小規模集群上表現優異，在面對海量算力時同樣具備極高的擴展性。在測試包含1152張GPU（48個預填充節點，96個解碼節點）的大規模集群中，DualPath依然能夠實現近乎線性的性能擴展。

通過重塑底層數據流向，DualPath為正在到來的Agentic大模型時代，鋪平了通往极速推理的基礎設施道路。

本文來源：AI寒武紀

風險提示及免責條款

        市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

2人點讚了這條動態

讚賞
2
留言
轉發
分享

留言

0/400

暫無留言

熱門 Gate Fun
查看更多

1
G
GG
市值:$2444.82持有人數:1
0.00%
2
龙族
龙族
市值:$0.1持有人數:1
0.00%
3
龙
龙
市值:$2465.55持有人數:2
0.00%
4
GORK
GORK
市值:$2492.17持有人數:0
0.00%
5
SEN
扉间
市值:$2552.45持有人數:2
0.54%

DeepSeek聯合清北重磅硬核論文：發力智能體底層基建，擊穿Agent推理I/O瓶頸！

為什麼會出現嚴重的I/O瓶頸？

DualPath：雙路徑打破帶寬天花板

克服落地挑戰：流量隔離與動態調度

吞吐量接近翻倍，支持千卡規模擴展

熱門話題

美国以色列突襲伊朗BTC短線跳水

川普下令停用AnthropicAI產品

深度創作營

95%山寨幣跌破長期均線

Gate廣場發帖領五萬美金紅包

熱門 Gate Fun

G

GG

龙族

龙族

龙

龙

GORK

GORK

SEN

扉间

置頂