黄仁勋在仅仅1.5小时内发布了八项重大公告,描绘了英伟达在推理和机器人领域的主导之路

2026年1月5日,在CES展会上,NVIDIA首席执行官黄仁勋身穿标志性的皮夹克登上舞台,进行了长达1.5小时的演讲,将公司对AI时代最雄心勃勃的愿景浓缩成一场高影响力的展示。在这短暂的时间窗口中,发布了八项重大公告,重塑了从AI模型训练到NVIDIA所视为下一前沿的竞争格局:大规模成本高效推理以及物理AI在现实世界中的集成。

这些公告背后的潜台词反映出市场的根本转变。随着模型规模每年增长10倍,推理Token数量每年扩大5倍——而每Token的成本下降10倍,计算行业面临一个新的制约:推理已成为瓶颈,而非训练。NVIDIA在1.5小时前宣布的整个Vera Rubin架构,正是围绕这一现实设计的。

一机架六芯片:Vera Rubin AI超级计算机重新定义密度与性能

硬件核心是NVIDIA Vera Rubin POD,一款专为AI设计的超级计算机,集成六颗自主芯片,协同工作。这一共同设计理念标志着与前几代模块化方法的不同。旗舰系统Vera Rubin NVL72在单一机架中集成了2万亿晶体管,提供3.6 EFLOPS的NVFP4推理性能,比Blackwell代提升五倍。

架构细节如下:

  • Vera CPU:基于88个定制的Olympus核心,配备176个NVIDIA空间多线程技术的线程。支持1.8TB/s的NVLink-C2C带宽,实现CPU-GPU的无缝统一内存。系统内存扩展至1.5TB,是Grace CPU的三倍,带宽达1.2TB/s的LPDDR5X。CPU性能翻倍,并引入机架级的机密计算,首次实现跨越CPU和GPU域的真正TEE。

  • Rubin GPU:核心引入Transformer引擎,实现NVFP4推理50 PFLOPS (5x Blackwell),以及NVFP4训练35 PFLOPS (3.5x Blackwell)。支持22TB/s带宽的HBM4内存,比上一代快2.8倍,关键于处理大规模的Mixture-of-Experts(MoE)模型。向后兼容确保平滑迁移现有Blackwell部署。

  • NVLink 6 Switch:每通道速度提升至400Gbps,实现每GPU3.6TB/s的全互联带宽(相较前代提升2倍)。总跨交换带宽达28.8TB/s,网络内计算在FP8精度下提供14.4 TFLOPS。系统采用100%液冷,消除热限制。

  • ConnectX-9 SuperNIC:每GPU提供1.6Tb/s带宽,完全可编程、软件定义,适用于大规模AI工作负载。

  • BlueField-4 DPU:一款800Gbps智能网卡,配备64核Grace CPU和ConnectX-9。卸载网络和存储任务,同时增强安全性——提供比上一代多6倍的计算性能和3倍的内存带宽,GPU到存储的访问速度提升2倍。

  • Spectrum-X 102.4T CPO:采用200Gbps SerDes技术的光学集成交换机,提供每ASIC102.4Tb/s的带宽。512端口高密度配置(800Gb/s每端口),使整个系统作为一个统一实体运行,而非孤立组件。

组装时间从两小时缩短到五分钟,通过零停机的NVLink Switch架构消除了维护窗口。模块化设计(现已无线缆、无风扇)使维护速度比前几代快18倍。这些运营效率的提升直接降低了数据中心的总拥有成本(TCO)并提升了正常运行时间。

三大专用平台应对AI推理的真实瓶颈:上下文存储与吞吐量

虽然原始计算能力提升了5倍,但推理面临的挑战不同——单靠GPU周期无法解决。NVIDIA推出了三款集成产品,专门应对推理世界中的特定瓶颈。

( Spectrum-X以太网集成光学:网络作为关键基础设施

传统网络交换消耗大量电力并引入延迟,削弱推理性能。基于Spectrum-X架构的Spectrum-X Ethernet CPO采用两芯片设计,实现了5倍的能效、10倍的可靠性提升和5倍的应用正常运行时间改善。512端口系统每端口800Gb/s,总容量达102.4Tb/s。

直接影响是:每天处理的Token数量增加,降低每Token的成本,最终使数据中心TCO降低一个NVIDIA认为具有变革性的倍数。

) 推理上下文存储平台:实现KV缓存的规模化实用

Agentic AI系统的推理任务——多轮对话、检索增强生成(RAG)和多步推理——都需要持久的上下文存储。当前系统面临悖论:GPU内存快但稀缺,网络存储丰富但太慢。NVIDIA推理上下文存储平台通过将上下文作为基础设施中的一等数据类型,弥合了这一差距。

在BlueField-4和Spectrum-X的加持下,这一新存储层通过专用NVLink互连连接GPU集群。系统不在每次推理步骤中重新计算键值缓存,而是将其存储在优化的存储中,实现推理性能提升5倍,能效提升5倍。对于从无状态聊天机器人演变为能跨越数百万Token进行推理的有状态智能体的AI系统,这一架构补充消除了一个根本的扩展瓶颈。

NVIDIA正与存储合作伙伴合作,将此平台直接集成到基于Rubin的部署中,作为一体化AI基础设施的核心元素,而非事后补充。

( DGX SuperPOD )Vera Rubin版###:成本最优推理的工厂蓝图

DGX SuperPOD作为NVIDIA大规模AI推理部署的参考架构,基于八个DGX Vera Rubin NVL72系统,利用NVLink 6实现垂直网络扩展,Spectrum-X Ethernet实现横向扩展,以及推理上下文存储平台进行上下文调度。全部由NVIDIA Mission Control软件管理。

结果是:与Blackwell时代的基础设施相比,训练等规模的MoE模型所需GPU数量减少至1/4,大规模MoE推理的Token成本降低至1/10。对云服务商和企业而言,这是一个巨大的经济杠杆——用更少的GPU处理相同工作负载,带来数十亿美元的基础设施节省。

Nemotron、Blueprints与开源加速:构建多模型、多云AI系统

在硬件公告同期,NVIDIA宣布了其最大规模的开源扩展。2025年,公司向Hugging Face贡献了650个开源模型和250个开源数据集,成为该平台最大的贡献者。主流指标显示,开源模型的使用在过去一年增长了20倍,约占所有推理Token的25%。

公司还在扩展Nemotron家族,推出新模型:Agentic RAG系统、专用安全模型和多模态AI应用的语音模型。关键是,NVIDIA将这些模型作为孤立的单元发布,而是作为更大框架Blueprints中的组件。

Blueprints体现了黄仁勋从观察Perplexity和早期AI代理平台中得出的关键架构洞察:生产级的Agentic AI本质上是多模型、多云和混合云的。该框架使开发者能够:

  • 动态调度任务:对延迟敏感的本地私有模型,前沿能力的云端模型
  • 无缝调用外部API和工具###email系统、机器人控制接口、日历服务(
  • 将多模态输入——文本、语音、图像、机器人传感器数据——融合为统一表示

这些曾经是科幻的抽象,现在通过NVIDIA与Blueprints的SaaS集成,开发者可以轻松实现。类似的实现也出现在企业平台如ServiceNow和Snowflake上,标志着企业AI系统级思维的转变。

战略意义在于:NVIDIA正同时实现前沿AI能力的普及,同时巩固其软件生态系统,成为AI代理构建的事实标准。

物理AI:从模拟到现实——Alpha-Mayo与机器人技术的拐点

继基础设施和开源模型之后,黄仁勋转向他定义的关键前沿:物理AI——感知物理世界、推理并直接生成行动的系统。这一转变类似于AI的前几个时代:感知AI、生成AI、代理AI。物理AI代表着智能进入具身系统的阶段。

黄仁勋提出了三台计算机架构,用于物理AI开发:

  1. 训练计算机 )DGX###:构建基础模型
  2. 推理计算机 (嵌入式芯片在机器人/车辆中):执行实时决策
  3. 仿真计算机 (Omniverse):生成合成数据并验证物理推理

支撑这一体系的基础模型是Cosmos World Foundation Model,它整合语言、图像、3D几何和物理定律,支持从仿真到实际部署的完整流程。

( Alpha-Mayo:自动驾驶作为切入点

自动驾驶是物理AI首次大规模部署的窗口。NVIDIA发布了Alpha-Mayo,一个完整系统,包括开源模型、仿真工具和数据集,用于Level 4自动驾驶开发。

Alpha-Mayo采用基于推理的范式,而非纯端到端学习。10亿参数模型将问题拆解成离散步骤,推理可能性,选择最安全的轨迹。这一架构使车辆能够应对前所未有的极端情况——如繁忙交叉口的交通灯故障——通过应用学到的推理而非记忆模式。

在实际部署中,系统接受文本提示、全景摄像头、车辆状态历史和导航输入,输出驾驶轨迹和推理的自然语言解释。这种透明性对于监管认证和乘客信任至关重要。

梅赛德斯-奔驰CLA:NVIDIA确认,搭载Alpha-Mayo的全新梅赛德斯-奔驰CLA已进入生产阶段,并在最新的NCAP(新车评估计划)中获得最高安全评级)。该车型支持免提高速公路驾驶和端到端城市自动导航,2026年晚些时候将在美国市场推出增强功能。每一行代码、芯片和系统组件都经过正式安全认证。

NVIDIA还发布了:

  • 用于研究人员微调的Alpha-Mayo训练数据子集
  • Alpha-Sim:一个开源仿真框架,用于评估Alpha-Mayo性能
  • 工具,帮助开发者结合真实与合成数据,定制自动驾驶应用

( 机器人合作与工业集成

除了交通领域,NVIDIA宣布了广泛的机器人合作。领先企业——Boston Dynamics、Franka Robotics、Surgical、LG Electronics、NEURA、XRLabs和Logic Robotics——都在构建基于NVIDIA Isaac )仿真与开发平台(和GR00T )机器人基础模型###的系统。

此外,NVIDIA还宣布与西门子的战略合作。合作将NVIDIA CUDA-X库、AI模型和Omniverse数字孪生集成到西门子的EDA、CAE和数字孪生工具中。这将推动物理AI贯穿设计、仿真、制造到实际部署的整个生命周期。

战略:开源速度与硬件锁定的结合

这场1.5小时的主旨演讲凝聚了NVIDIA迈入推理时代的双重战略。一方面,公司积极开源模型、数据集和开发工具;另一方面,通过深度协同优化,使其硬件、互连和系统设计变得越来越不可替代。

这形成了良性循环:

  • 开源模型和工具推动采用
  • 更广泛的采用带动对推理规模的需求
  • 推理规模需要NVIDIA的专业硬件以实现成本效益
  • 随着Token量的扩大,客户逐渐锁定NVIDIA基础设施

从NVLink 6互连到推理上下文存储平台的系统级设计理念,使竞争对手难以复制NVIDIA的整体拥有成本优势。所谓“开放”其实是通过Nemotron和Blueprints强化了公司的护城河,使其平台成为追求灵活性与性能的AI开发者的首选。随着AI行业从训练主导转向推理主导,这一闭环策略——不断扩大需求、降低Token成本、实现基础设施锁定——正不断扩大NVIDIA的经济护城河,甚至可能使竞争对手在推理和物理AI时代难以逾越。

MAJOR-1.19%
IN47.52%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)