Gate 廣場“新星計劃”正式上線!
開啟加密創作之旅,瓜分月度 $10,000 獎勵!
參與資格:從未在 Gate 廣場發帖,或連續 7 天未發帖的創作者
立即報名:https://www.gate.com/questionnaire/7396
您將獲得:
💰 1,000 USDT 月度創作獎池 + 首帖 $50 倉位體驗券
🔥 半月度「爆款王」:Gate 50U 精美周邊
⭐ 月度前 10「新星英雄榜」+ 粉絲達標榜單 + 精選帖曝光扶持
加入 Gate 廣場,贏獎勵 ,拿流量,建立個人影響力!
詳情:https://www.gate.com/announcements/article/49672
NVIDIA的GPU加速架構:硬體排程如何推動2026年CES推理革命
在2026年CES上,NVIDIA CEO黃仁勳發表了一場全面的主題演說,將AI基礎設施的討論重新聚焦於一個核心原則:智能硬體加速與GPU排程,作為推理經濟的基礎。在1.5小時的演說中,他揭示了八個主要發展,這些發展共同代表了從以訓練為中心的AI轉向優化推理的系統轉變。所有公告的共同線索是,先進的GPU排程——從計算分配到資源配置——如何促使大規模的成本效益高、吞吐量高的AI部署成為可能。
系統層級GPU加速:Vera Rubin平台的革命性設計
NVIDIA策略的核心是Vera Rubin AI超級電腦,一個由六個晶片共同設計的系統,重新構想了GPU加速在機架層級的運作方式。該平台的架構——包括Vera CPU、Rubin GPU、NVLink 6交換機、ConnectX-9 SuperNIC、BlueField-4 DPU與Spectrum-X CPO——代表了從模組化設計向深度整合硬體加速的轉變。
Rubin GPU引入了Transformer引擎,並實現高達50 PFLOPS的NVFP4推理性能,比Blackwell提升了5倍。更重要的是,GPU的3.6TB/s NVLink互連帶寬與硬體加速的張量運算支援,使前所未有的GPU排程效率成為可能。NVLink 6交換機每通道400Gbps,協調GPU間通信,總帶寬達28.8TB/s,使系統能以最小延遲進行GPU間的計算排程。
整合於單一機架的Vera Rubin NVL72系統中,這套硬體加速實現了3.6 EFLOPS的推理性能——較上一代提升5倍。系統內含20億個晶體管,並採用100%液冷技術,實現密集GPU排程而不受熱能限制。組裝時間縮短至五分鐘,比前代快了18倍,彰顯標準化GPU加速框架如何簡化部署流程。
智能GPU排程與資源配置提升推理效率
NVIDIA的三款新推理產品直接針對不同系統層級的GPU排程挑戰。Spectrum-X乙太網光纖封裝光學模組(CPO)優化了GPU間的交換結構。將光學元件直接嵌入交換晶片中,CPO實現了5倍的能效提升與5倍的應用運行時間改善。這一架構選擇確保GPU間的排程決策幾乎不會增加功耗。
NVIDIA推理上下文記憶體存儲平台則解決另一個排程問題:上下文管理。隨著AI模型轉向具有數百萬Token窗口的代理推理,存取與管理上下文成為瓶頸。這個新存儲層由BlueField-4 DPU加速,並與NVLink基礎設施整合,使GPU能將鍵值快取運算卸載到專用存儲節點。結果是推理性能提升5倍,能耗降低5倍——這不僅靠更快的GPU,而是靠智能排程計算與存儲資源。
由八台Vera Rubin NVL72系統組成的NVIDIA DGX SuperPOD,展示了GPU排程在集群層級的擴展能力。利用NVLink 6進行垂直擴展,Spectrum-X乙太網路進行水平擴展,將大型專家混合模型(MoE)的Token成本降低到前一代的十分之一。這10倍的成本縮減反映了優化GPU排程的複利效果:減少計算週期浪費、降低資料傳輸負擔、提升資源利用率。
多層存儲與GPU上下文管理:解決新推理瓶頸
從訓練轉向推理,根本改變了GPU資源的排程方式。在訓練階段,GPU利用率預測性高且穩定;而在推理,尤其是長上下文推理中,請求模式不規則,重用上下文變得至關重要。NVIDIA的新存儲平台引入了為推理優化的記憶體層級:GPU HBM4記憶體用於活躍計算、新的上下文記憶體層用於鍵值快取管理,以及傳統存儲用於持久資料。
GPU排程現在必須在計算任務與上下文排程決策間取得平衡。BlueField-4 DPU加速上下文在這些層級間的移動,而智慧軟體則安排GPU內核啟動,與上下文預取同步進行。這種跨越GPU計算、DPU加速與網路效率的協作設計,消除了長上下文推理中以往困擾的重複KV快取重算問題。
開放模型與GPU優化框架:構建實體AI生態系
NVIDIA擴展的開源策略反映出一個認知:GPU加速的價值只有在繁榮的軟體生態系中才能充分發揮。2025年,NVIDIA成為Hugging Face上開源模型的最大貢獻者,發布了650個模型與250個資料集。這些模型越來越多地針對NVIDIA的GPU排程架構進行優化——它們利用Transformer引擎、採用NVFP4精度,並與NVLink記憶體層級相協調。
全新的"Blueprints"框架使開發者能組合多模型、混合雲端AI系統。這些系統根據延遲與成本智能排程推理任務於本地GPU與雲端前沿模型之間。推出的Alpamayo,一個擁有100億參數的自主駕駛推理模型,展現了此策略的實踐。Alpamayo能在推理優化GPU上高效運行,證明了深思熟慮的GPU排程與模型架構結合,能在消費級硬體上實現複雜推理。
西門子將NVIDIA CUDA-X、AI模型與Omniverse整合進工業數位雙胞胎,將GPU加速推廣到製造與運營領域。這個合作範例說明GPU排程框架如何成為整個產業的基礎設施。
策略願景:從GPU計算能力到完整系統加速
NVIDIA的公告序列展現了一個深思熟慮的策略:每一層新產品——從GPU核心設計、網路交換到存儲架構——都經過重新思考,以適應推理工作負載。最終形成一個GPU排程不再是次要考量,而是核心設計原則的系統。
黃仁勳指出的「ChatGPT時代已經來臨」的觀點,建立在這個基礎架構之上。配備Alpamayo模型的自動駕駛車輛需要能在不可預測的條件下進行實時推理的GPU。運用GR00T框架的機器人則需要高效排程多模態感知與推理的GPU。這些實體AI應用之所以能實現,正是因為NVIDIA已經將GPU加速從晶片層面重新構想,延伸到軟體堆疊。
NVIDIA構築的競爭護城河包含三個元素:持續提升GPU排程效率(每代提升5倍)、開放軟體以促進採用(650模型、250資料集),以及使硬體與軟體整合越來越難被模仿。從Vera Rubin晶片到上下文記憶體平台的每一次發布,都在深化GPU加速能力的同時,提升競爭架構的門檻。
隨著AI產業從訓練稀缺轉向推理豐富,GPU排程成為成本與性能的主要瓶頸。NVIDIA的全端解決方案確保其硬體加速能力將在未來十年內,成為AI基礎設施的核心層。