Gate 廣場|2/27 今日話題: #BTC能否重返7万美元?
🎁 帶話題發帖,抽 5 位幸運兒送出 $2,500 仓位體驗券!
Jane Street 被起訴後,持續多日的“10 點砸盤”疑似消失。BTC 目前在 $67,000 附近震盪,這波反彈能否順勢衝回 $70,000?
💬 本期熱議:
1️⃣ 你認為訴訟與“10 點拋壓”消失有關嗎?市場操縱阻力是否減弱?
2️⃣ 衝擊 $70K 的關鍵壓力區在哪?
3️⃣ 你會在當前價位分批布局,還是等待放量突破再進場?
分享觀點,瓜分好禮 👉️ https://www.gate.com/post
📅 2/27 16:00 - 3/1 12:00 (UTC+8)
DeepSeek聯合清北重磅硬核論文:發力智能體底層基建,擊穿Agent推理I/O瓶頸!
DeepSeek V4發布前夕硬核重磅論文上線
大模型正在從單輪對話機器人,快速進化為能自主規劃、調用工具並解決實際問題的Agent。然而,這種轉變在底層算力架構上引發了一場大地震。
當大模型在長期的上下文中與環境進行數十甚至上百輪的交互時,計算的瓶頸從GPU的算力轉為存儲I/O帶寬。由於每次只追加極少的Token,導致KV-Cache命中率極高(通常大於95%),GPU大量的時間被用來等待從外部存儲中讀取海量的歷史KV-Cache數據。
為了打破這一僵局,DeepSeek聯合北大、清華研究團隊提出了一種全新的大模型推理系統——DualPath。
該系統通過引入“双路徑KV-Cache加載”機制,巧妙利用了集群中閒置的網絡帶寬,將Agentic大模型負載的離線推理吞吐量提升了最高1.87倍,線上服務吞吐量平均提升了1.96倍。
目前,這項研究已在包含多達1152張GPU的集群上完成了大規模驗證,支持DeepSeek-V3.2 660B等頂級大模型。
為什麼會出現嚴重的I/O瓶頸?
要理解DualPath的創新點,首先需要看清現有架構的痛點。
在典型的智能體軌跡中,模型會接收一段包含先前上下文和新追加Token的提示詞,然後生成下一步動作。
這種多輪次、短追加的模式,讓上下文長度极速膨脹,甚至可以達到百萬級別。由於顯存(HBM)和內存(DRAM)容量有限,海量的KV-Cache必須存放在更便宜但速度較慢的SSD外部存儲中。
現代大模型推理系統普遍採用Prefill-Decode(預填充-解碼)分離架構。預填充節點專門負責處理提示詞並加載命中的KV-Cache,解碼節點則負責逐個生成Token。
問題恰恰出在這裡。
正如圖1左側所示,在現有系統中,所有的KV-Cache都直接從外部存儲加載到預填充節點。這導致了一個極端的失衡:預填充節點的存儲網卡(SNIC)帶寬被徹底跑滿,成為了整個系統的絕對瓶頸;而與此同時,解碼節點的存儲網卡卻處於大規模閒置狀態。
此外,硬件的發展趨勢也加劇了這一矛盾。從圖3左側的NVIDIA硬件演進路線可以看出,GPU的計算力(FLOPS)增長速度遠遠甩開了網絡帶寬和顯存容量的增長,導致計算與I/O的比例嚴重失衡。
DualPath:雙路徑打破帶寬天花板
既然解碼節點的存儲帶寬閒著,為什麼不把它利用起來?這正是DualPath的核心思想。
研究團隊重構了KV-Cache的加載架構,在傳統的存儲->預填充路徑之外,開辟了一條全新的“存儲->解碼->預填充”雙路徑加載通道。
1.預填充讀取路徑:KV-Cache從持久化存儲讀入預填充節點的內存緩衝,再傳輸到GPU顯存進行計算,最後把完整的KV-Cache傳給解碼節點。
2.解碼讀取路徑:KV-Cache先從持久化存儲讀入解碼節點的內存緩衝。在預填充階段,這部分數據通過節點間的高速計算網絡(採用RDMA技術),以層級流式傳輸的方式發送給預填充節點參與計算。
通過動態分配這兩條路徑的數據流量,DualPath將原本單一節點的I/O壓力,轉化為全局資源池化的負載分擔,從而成功聚合了所有節點的存儲帶寬。
克服落地挑戰:流量隔離與動態調度
想法很直觀,但在亞毫秒級延遲極其敏感的大模型推理系統中落地,需要解決極具挑戰性的工程難題。
第一個挑戰是網絡流量的干擾。
引入額外的KV-Cache傳輸,極易與模型推理過程中關鍵的集合通信(如MoE架構中的AllToAll操作)發生衝突,拖慢整體推理速度。
对此,DualPath設計了以計算網卡(CNIC)為中心的流量管理機制。系統將所有進出GPU的流量(包括主機到設備的拷貝)強制通過計算網卡,並利用底層網絡(如InfiniBand的虛擬通道機制)實施嚴格的服務質量(QoS)控制。模型推理通信被分配到擁有99%帶寬的高優先級通道,而KV-Cache傳輸則被分配到低優先級通道,僅在計算網絡的空閒間隙見縫插針地傳輸,實現了完美的流量隔離。
第二個挑戰是動態負載均衡。
面對複雜多變的請求,系統必須實時決定為每個請求選擇哪條讀取路徑,同時兼顧網卡隊列長度和GPU計算負載。
DualPath引入了自適應請求調度器(工作原理如圖5所示)。該調度器不僅會監控各個節點的磁盤讀取隊列長度,還會將Token數量作為衡量負載的核心指標。系統將計算節點劃分為過載、低讀取隊列和高讀取隊列三類,優先將新任務分配給讀取隊列較短且未過載的節點。
同時,在節點內部,系統還會基於時間預估機制進行調度,將執行時間相近的請求打包到同一個批次中,最大程度減少GPU在等待同步時產生的計算氣泡。
吞吐量接近翻倍,支持千卡規模擴展
研究團隊在擁有InfiniBand網絡和3FS分佈式存儲的NVIDIA Hopper GPU集群上對DualPath進行了全面評估。測試模型涵蓋了DeepSeek-V3.2 660B、DS 27B以及Qwen2.5-32B,並使用了真實的智能體強化學習環境軌跡數據集。
離線批量推理表現(如強化學習的Rollout階段):
在不同智能體並發數和最大上下文長度的設置下,DualPath相較於基線系統展現出碾壓優勢。在處理DeepSeek 660B模型時,DualPath將任務完成時間大幅縮短,吞吐量最高提升了1.87倍。
隨著每輪追加Token長度的增加或生成長度的變化,DualPath依然能夠保持穩定的性能提升,證明其成功消除了存儲網絡瓶頸。
線上服務表現:
在設定了嚴格的延遲服務等級協議(首字延遲小於4秒)的前提下,系統應對突發請求的能力得到了極大增強。DualPath能支撐的請求到達率(APS)相比基線系統提升了最高2.25倍,同時保持了極低的端到端生成延遲。消融實驗進一步證實,雙路徑加載機制和自適應調度算法是性能提升的最關鍵因素。
大規模擴展性:
該系統不僅在小規模集群上表現優異,在面對海量算力時同樣具備極高的擴展性。在測試包含1152張GPU(48個預填充節點,96個解碼節點)的大規模集群中,DualPath依然能夠實現近乎線性的性能擴展。
通過重塑底層數據流向,DualPath為正在到來的Agentic大模型時代,鋪平了通往极速推理的基礎設施道路。
本文來源:AI寒武紀
風險提示及免責條款