DeepSeek聯合清北重磅硬核論文:發力智能體底層基建,擊穿Agent推理I/O瓶頸!

robot
摘要生成中

DeepSeek V4發布前夕硬核重磅論文上線

大模型正在從單輪對話機器人,快速進化為能自主規劃、調用工具並解決實際問題的Agent。然而,這種轉變在底層算力架構上引發了一場大地震。

當大模型在長期的上下文中與環境進行數十甚至上百輪的交互時,計算的瓶頸從GPU的算力轉為存儲I/O帶寬。由於每次只追加極少的Token,導致KV-Cache命中率極高(通常大於95%),GPU大量的時間被用來等待從外部存儲中讀取海量的歷史KV-Cache數據。

為了打破這一僵局,DeepSeek聯合北大、清華研究團隊提出了一種全新的大模型推理系統——DualPath

該系統通過引入“双路徑KV-Cache加載”機制,巧妙利用了集群中閒置的網絡帶寬,將Agentic大模型負載的離線推理吞吐量提升了最高1.87倍,線上服務吞吐量平均提升了1.96倍。

目前,這項研究已在包含多達1152張GPU的集群上完成了大規模驗證,支持DeepSeek-V3.2 660B等頂級大模型。

為什麼會出現嚴重的I/O瓶頸?

要理解DualPath的創新點,首先需要看清現有架構的痛點。

在典型的智能體軌跡中,模型會接收一段包含先前上下文和新追加Token的提示詞,然後生成下一步動作。

這種多輪次、短追加的模式,讓上下文長度极速膨脹,甚至可以達到百萬級別。由於顯存(HBM)和內存(DRAM)容量有限,海量的KV-Cache必須存放在更便宜但速度較慢的SSD外部存儲中。

現代大模型推理系統普遍採用Prefill-Decode(預填充-解碼)分離架構。預填充節點專門負責處理提示詞並加載命中的KV-Cache,解碼節點則負責逐個生成Token。

問題恰恰出在這裡。

正如圖1左側所示,在現有系統中,所有的KV-Cache都直接從外部存儲加載到預填充節點。這導致了一個極端的失衡:預填充節點的存儲網卡(SNIC)帶寬被徹底跑滿,成為了整個系統的絕對瓶頸;而與此同時,解碼節點的存儲網卡卻處於大規模閒置狀態。

此外,硬件的發展趨勢也加劇了這一矛盾。從圖3左側的NVIDIA硬件演進路線可以看出,GPU的計算力(FLOPS)增長速度遠遠甩開了網絡帶寬和顯存容量的增長,導致計算與I/O的比例嚴重失衡。

DualPath:雙路徑打破帶寬天花板

既然解碼節點的存儲帶寬閒著,為什麼不把它利用起來?這正是DualPath的核心思想。

研究團隊重構了KV-Cache的加載架構,在傳統的存儲->預填充路徑之外,開辟了一條全新的“存儲->解碼->預填充”雙路徑加載通道。

1.預填充讀取路徑:KV-Cache從持久化存儲讀入預填充節點的內存緩衝,再傳輸到GPU顯存進行計算,最後把完整的KV-Cache傳給解碼節點。

2.解碼讀取路徑:KV-Cache先從持久化存儲讀入解碼節點的內存緩衝。在預填充階段,這部分數據通過節點間的高速計算網絡(採用RDMA技術),以層級流式傳輸的方式發送給預填充節點參與計算。

通過動態分配這兩條路徑的數據流量,DualPath將原本單一節點的I/O壓力,轉化為全局資源池化的負載分擔,從而成功聚合了所有節點的存儲帶寬。

克服落地挑戰:流量隔離與動態調度

想法很直觀,但在亞毫秒級延遲極其敏感的大模型推理系統中落地,需要解決極具挑戰性的工程難題。

第一個挑戰是網絡流量的干擾。

引入額外的KV-Cache傳輸,極易與模型推理過程中關鍵的集合通信(如MoE架構中的AllToAll操作)發生衝突,拖慢整體推理速度。

对此,DualPath設計了以計算網卡(CNIC)為中心的流量管理機制。系統將所有進出GPU的流量(包括主機到設備的拷貝)強制通過計算網卡,並利用底層網絡(如InfiniBand的虛擬通道機制)實施嚴格的服務質量(QoS)控制。模型推理通信被分配到擁有99%帶寬的高優先級通道,而KV-Cache傳輸則被分配到低優先級通道,僅在計算網絡的空閒間隙見縫插針地傳輸,實現了完美的流量隔離。

第二個挑戰是動態負載均衡。

面對複雜多變的請求,系統必須實時決定為每個請求選擇哪條讀取路徑,同時兼顧網卡隊列長度和GPU計算負載。

DualPath引入了自適應請求調度器(工作原理如圖5所示)。該調度器不僅會監控各個節點的磁盤讀取隊列長度,還會將Token數量作為衡量負載的核心指標。系統將計算節點劃分為過載、低讀取隊列和高讀取隊列三類,優先將新任務分配給讀取隊列較短且未過載的節點。

同時,在節點內部,系統還會基於時間預估機制進行調度,將執行時間相近的請求打包到同一個批次中,最大程度減少GPU在等待同步時產生的計算氣泡。

吞吐量接近翻倍,支持千卡規模擴展

研究團隊在擁有InfiniBand網絡和3FS分佈式存儲的NVIDIA Hopper GPU集群上對DualPath進行了全面評估。測試模型涵蓋了DeepSeek-V3.2 660B、DS 27B以及Qwen2.5-32B,並使用了真實的智能體強化學習環境軌跡數據集。

離線批量推理表現(如強化學習的Rollout階段):

在不同智能體並發數和最大上下文長度的設置下,DualPath相較於基線系統展現出碾壓優勢。在處理DeepSeek 660B模型時,DualPath將任務完成時間大幅縮短,吞吐量最高提升了1.87倍。

隨著每輪追加Token長度的增加或生成長度的變化,DualPath依然能夠保持穩定的性能提升,證明其成功消除了存儲網絡瓶頸。

線上服務表現

在設定了嚴格的延遲服務等級協議(首字延遲小於4秒)的前提下,系統應對突發請求的能力得到了極大增強。DualPath能支撐的請求到達率(APS)相比基線系統提升了最高2.25倍,同時保持了極低的端到端生成延遲。消融實驗進一步證實,雙路徑加載機制和自適應調度算法是性能提升的最關鍵因素。

大規模擴展性

該系統不僅在小規模集群上表現優異,在面對海量算力時同樣具備極高的擴展性。在測試包含1152張GPU(48個預填充節點,96個解碼節點)的大規模集群中,DualPath依然能夠實現近乎線性的性能擴展。

通過重塑底層數據流向,DualPath為正在到來的Agentic大模型時代,鋪平了通往极速推理的基礎設施道路。

本文來源:AI寒武紀

風險提示及免責條款

        市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)