硬體核心是NVIDIA Vera Rubin POD,一款專為AI打造的超級電腦,整合六顆專有晶片,協同運作。這種共同設計理念,標誌著與前幾代模組化設計的轉變。旗艦系統Vera Rubin NVL72,將2兆個晶體管濃縮在一個機櫃中,提供3.6 EFLOPS的NVFP4推理性能,比Blackwell世代提升五倍。
架構細節如下:
Vera CPU:以88個定制的Olympus核心為基礎,配備176個NVIDIA空間多線程技術的執行緒。支援1.8TB/s的NVLink-C2C帶寬,實現CPU-GPU的無縫統一記憶體。系統記憶體擴展至1.5TB,是Grace CPU的三倍,LPDDR5X帶寬達1.2TB/s。CPU性能翻倍,並引入機櫃層級的機密運算,首次實現跨越CPU與GPU的真正TEE。
黃仁勳在短短1.5小時內發布了八項重大公告,描繪NVIDIA在推理和機器人領域的主導之路
2026年1月5日,在CES展上,NVIDIA CEO黃仁勳身穿標誌性的皮革夾克,掌控舞台長達1.5小時,將公司對AI時代最雄心壯志的願景濃縮成一場高衝擊力的簡報。在這短暫的時間內,推出了八項重大宣布,重塑了從AI模型訓練到NVIDIA所視為下一個前沿的競爭格局:大規模成本效益的推理與物理AI在現實世界的整合。
這些宣布背後的潛台詞反映出一個根本的市場轉變。隨著模型規模每年成長10倍,推理Token數量每年擴增5倍——而每Token成本卻下降10倍,運算產業面臨一個新的限制:推理已成為瓶頸,而非訓練。NVIDIA整個Vera Rubin架構,早在1.5小時前宣布,正是圍繞這一現實設計。
一個機櫃中的六顆定制晶片:Vera Rubin AI超級電腦重新定義密度與性能
硬體核心是NVIDIA Vera Rubin POD,一款專為AI打造的超級電腦,整合六顆專有晶片,協同運作。這種共同設計理念,標誌著與前幾代模組化設計的轉變。旗艦系統Vera Rubin NVL72,將2兆個晶體管濃縮在一個機櫃中,提供3.6 EFLOPS的NVFP4推理性能,比Blackwell世代提升五倍。
架構細節如下:
Vera CPU:以88個定制的Olympus核心為基礎,配備176個NVIDIA空間多線程技術的執行緒。支援1.8TB/s的NVLink-C2C帶寬,實現CPU-GPU的無縫統一記憶體。系統記憶體擴展至1.5TB,是Grace CPU的三倍,LPDDR5X帶寬達1.2TB/s。CPU性能翻倍,並引入機櫃層級的機密運算,首次實現跨越CPU與GPU的真正TEE。
Rubin GPU:核心晶片引入Transformer引擎,支援NVFP4推理達50 PFLOPS (5x Blackwell),訓練則達35 PFLOPS (3.5x Blackwell)。支援HBM4記憶體,帶寬達22TB/s,比前一代提升2.8倍,對於處理大規模Mixture-of-Experts (MoE)模型至關重要。向後相容確保平滑升級現有Blackwell部署。
NVLink 6 Switch:每通道速度提升至400Gbps,實現每GPU 3.6TB/s的全連接帶寬 (2x前一代)。整體跨交換機的帶寬達28.8TB/s,網路內計算提供FP8精度下14.4 TFLOPS。系統採用100%液冷,消除熱限制。
ConnectX-9 SuperNIC:每GPU提供1.6Tb/s的帶寬,完全可程式化、軟體定義,適用於大規模AI工作負載。
BlueField-4 DPU:一款800Gbps智慧NIC,配備64核Grace CPU與ConnectX-9,卸載網路與存儲任務,同時提升安全性——計算性能較前一代提升6倍,記憶體帶寬提升3倍,GPU到存儲存取速度快2倍。
Spectrum-X 102.4T CPO:採用200Gbps SerDes技術的光纖交換器,提供每ASIC 102.4Tb/s的傳輸能力。512端口高密度配置 (800Gb/s每端口),使整個系統作為一個統一體運作,而非孤立的組件。
組裝時間從兩小時縮短到五分鐘,且透過零停機的NVLink Switch架構,維護窗口已被徹底消除。模組化設計,現已無線纜、無風扇,讓維修速度比前幾代快18倍。這些運營效率的提升,直接降低資料中心的TCO並提升運行時間。
三個專用平台攻克AI推理的真正瓶頸:上下文存儲與吞吐量
雖然原始運算能力提升5倍,但推理面臨的問題不同——單靠GPU運算週期無法解決。NVIDIA推出三款整合產品,針對推理擴展世界中的特定瓶頸。
Spectrum-X乙太網路封裝光學:關鍵基礎建設的網路
傳統網路交換耗能巨大,且引入延遲,削弱推理性能。Spectrum-X Ethernet CPO,基於Spectrum-X架構,採用雙晶片設計,實現5倍能效、10倍可靠性與5倍應用正常運作時間提升。512端口系統每端口800Gb/s,總容量達102.4Tb/s。
直接影響是:每天處理的Token越多,成本越低,最終降低資料中心TCO,NVIDIA認為這對超大規模運營商具有變革性。
推理上下文記憶存儲平台:讓KV快取在大規模下成為現實
Agentic AI系統的推理工作負載——多回合對話、檢索增強生成 (RAG)、多步推理——都需要持久的上下文存儲。現有系統面臨矛盾:GPU記憶體快但稀缺,網路存儲豐富但太慢,無法快速存取短期上下文。NVIDIA推理上下文記憶存儲平台,將上下文視為基礎設施中的一等資料類型,彌合這一差距。
由BlueField-4與Spectrum-X加速,這個新存儲層透過專用NVLink互連連接GPU叢集。系統不再每次推理都重算key-value快取,而是將其存放在優化的存儲中,讓推理性能提升5倍,能效也提升5倍。對於從無狀態聊天機器人演進到能跨越數百萬Token進行推理的有狀態代理,這個架構的加入,解決了基本的擴展瓶頸。
NVIDIA正與存儲合作夥伴合作,將此平台直接整合到Rubin部署中,將其定位為一個即插即用的AI基礎設施核心元素,而非事後補充。
DGX SuperPOD (Vera Rubin版):成本最優推理的工廠藍圖
DGX SuperPOD作為NVIDIA大規模AI推理部署的參考架構。由八台DGX Vera Rubin NVL72系統組成,利用NVLink 6進行垂直網路擴展,Spectrum-X Ethernet進行水平擴展,推理上下文存儲平台進行上下文協調。整個堆疊由NVIDIA Mission Control軟體管理。
結果是:與Blackwell時代的基礎建設相比,訓練同等規模的MoE模型所需GPU數量減少四分之一,大型MoE推理的Token成本降低到十分之一。對雲端服務商與企業來說,這是一個巨大的經濟槓桿——相同工作負載用更少的GPU,規模化下可節省數十億美元的基礎建設成本。
Nemotron、Blueprints與開源加速:打造多模型、多雲端AI系統
與硬體公告同步,NVIDIA宣布其最大規模的開源擴展。2025年,該公司向Hugging Face貢獻了650個開源模型與250個開源資料集,成為該平台最大貢獻者。主流指標顯示,開源模型的使用在過去一年成長20倍,約佔所有推理Token的25%。
公司正擴展Nemotron家族,加入新模型:Agentic RAG系統、專用安全模型與多模態語音模型,專為多模態AI應用設計。關鍵是,NVIDIA將這些模型作為獨立模組,而非孤立存在,而是整合在一個名為Blueprints的框架中。
Blueprints體現了黃仁勳從觀察Perplexity與早期AI代理平台中獲得的關鍵架構洞見:生產級的代理AI本質上是多模型、多雲端、混合雲的。該框架使開發者能夠:
這些曾是科幻的抽象概念,現在透過NVIDIA與Blueprits的SaaS整合,開發者都能輕鬆取得。類似的實作也出現在企業平台如ServiceNow與Snowflake,標誌著企業AI系統層級思維的轉變。
戰略意涵:NVIDIA正同步推廣前沿AI能力,同時鞏固其軟體生態系,成為AI代理建構的事實標準。
物理AI:從模擬到現實——Alpha-Mayo與機器人轉折點
在基礎設施與開源模型之後,黃仁勳轉向他所定義的關鍵前沿:物理AI——能感知物理世界、推理並直接產生行動的系統。這一轉變類似AI的前幾個時代:感知AI、生成式AI、代理AI。物理AI代表著智慧進入具體化系統的階段。
黃仁勳提出一個三層電腦架構,用於物理AI的開發:
支撐這個堆疊的基礎模型是Cosmos World Foundation Model,它整合語言、圖像、3D幾何與物理定律,支援從模擬到實時部署的完整流程。
Alpha-Mayo:自動駕駛的先鋒
自動駕駛是物理AI首次大規模部署的窗口。NVIDIA推出Alpha-Mayo,一套完整系統,包括開源模型、模擬工具與資料集,用於Level 4自動駕駛開發。
Alpha-Mayo採用推理導向的架構,而非純端到端學習。這個擁有10億參數的模型,將問題拆解成離散步驟,推理可能性,選擇最安全的軌跡。這種架構使車輛能處理前所未有的邊緣案例——例如繁忙路口的交通燈故障——透過學習推理而非記憶模式。
在實際部署中,系統接受文字提示、環景攝像頭、車輛狀態歷史與導航輸入,輸出駕駛軌跡與推理的自然語言解釋。這種透明度對於法規認證與乘客信任至關重要。
梅賽德斯-賓士CLA:NVIDIA確認,搭載Alpha-Mayo的全新梅賽德斯-賓士CLA已進入量產,並在最新的NCAP (新車評鑑計畫)中獲得最高安全評級。該車提供免持高速公路駕駛與端到端的城市自動導航,2026年晚些時候在美國市場推出增強功能。每一行程式碼、晶片與系統元件都經過正式安全認證。
NVIDIA還發布:
機器人合作與產業整合
除了交通領域,NVIDIA宣布廣泛的機器人合作。領先公司如Boston Dynamics、Franka Robotics、Surgical、LG Electronics、NEURA、XRLabs與Logic Robotics,皆在NVIDIA Isaac (模擬與開發平台)與GR00T (@一個用於機器人的基礎模型)上建立系統。
此外,NVIDIA與西門子展開策略合作,將NVIDIA CUDA-X函式庫、AI模型與Omniverse數位雙胞胎整合進西門子EDA、CAE與數位雙胞胎工具,將物理AI推向設計、模擬、製造到實地部署的全生命週期。
策略:開源動能與硬體鎖定的結合
這場1.5小時的主旨演說,凝聚了NVIDIA進入推理時代的雙重策略。一方面,積極開源模型、資料集與開發工具;另一方面,透過深度共同優化,使硬體、互連與系統設計愈發不可取代。
這形成一個良性循環:
從NVLink 6互連到推理上下文存儲平台的系統層設計,使競爭者難以複製NVIDIA的總擁有成本優勢。所謂的“開放”Nemotron與Blueprints,實則強化了公司護城河,讓其平台成為追求彈性與性能的AI開發者的首選。隨著AI產業由訓練主導轉向推理主導,這個閉環策略——持續擴展需求、降低Token成本與鎖定基礎設施——正逐步擴大NVIDIA的經濟護城河,甚至可能成為競爭者難以逾越的壁壘。