Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
黄仁勋在仅仅1.5小时内发布了八项重大公告,描绘了英伟达在推理和机器人领域的主导之路
2026年1月5日,在CES展会上,NVIDIA首席执行官黄仁勋身穿标志性的皮夹克登上舞台,进行了长达1.5小时的演讲,将公司对AI时代最雄心勃勃的愿景浓缩成一场高影响力的展示。在这短暂的时间窗口中,发布了八项重大公告,重塑了从AI模型训练到NVIDIA所视为下一前沿的竞争格局:大规模成本高效推理以及物理AI在现实世界中的集成。
这些公告背后的潜台词反映出市场的根本转变。随着模型规模每年增长10倍,推理Token数量每年扩大5倍——而每Token的成本下降10倍,计算行业面临一个新的制约:推理已成为瓶颈,而非训练。NVIDIA在1.5小时前宣布的整个Vera Rubin架构,正是围绕这一现实设计的。
一机架六芯片:Vera Rubin AI超级计算机重新定义密度与性能
硬件核心是NVIDIA Vera Rubin POD,一款专为AI设计的超级计算机,集成六颗自主芯片,协同工作。这一共同设计理念标志着与前几代模块化方法的不同。旗舰系统Vera Rubin NVL72在单一机架中集成了2万亿晶体管,提供3.6 EFLOPS的NVFP4推理性能,比Blackwell代提升五倍。
架构细节如下:
Vera CPU:基于88个定制的Olympus核心,配备176个NVIDIA空间多线程技术的线程。支持1.8TB/s的NVLink-C2C带宽,实现CPU-GPU的无缝统一内存。系统内存扩展至1.5TB,是Grace CPU的三倍,带宽达1.2TB/s的LPDDR5X。CPU性能翻倍,并引入机架级的机密计算,首次实现跨越CPU和GPU域的真正TEE。
Rubin GPU:核心引入Transformer引擎,实现NVFP4推理50 PFLOPS (5x Blackwell),以及NVFP4训练35 PFLOPS (3.5x Blackwell)。支持22TB/s带宽的HBM4内存,比上一代快2.8倍,关键于处理大规模的Mixture-of-Experts(MoE)模型。向后兼容确保平滑迁移现有Blackwell部署。
NVLink 6 Switch:每通道速度提升至400Gbps,实现每GPU3.6TB/s的全互联带宽(相较前代提升2倍)。总跨交换带宽达28.8TB/s,网络内计算在FP8精度下提供14.4 TFLOPS。系统采用100%液冷,消除热限制。
ConnectX-9 SuperNIC:每GPU提供1.6Tb/s带宽,完全可编程、软件定义,适用于大规模AI工作负载。
BlueField-4 DPU:一款800Gbps智能网卡,配备64核Grace CPU和ConnectX-9。卸载网络和存储任务,同时增强安全性——提供比上一代多6倍的计算性能和3倍的内存带宽,GPU到存储的访问速度提升2倍。
Spectrum-X 102.4T CPO:采用200Gbps SerDes技术的光学集成交换机,提供每ASIC102.4Tb/s的带宽。512端口高密度配置(800Gb/s每端口),使整个系统作为一个统一实体运行,而非孤立组件。
组装时间从两小时缩短到五分钟,通过零停机的NVLink Switch架构消除了维护窗口。模块化设计(现已无线缆、无风扇)使维护速度比前几代快18倍。这些运营效率的提升直接降低了数据中心的总拥有成本(TCO)并提升了正常运行时间。
三大专用平台应对AI推理的真实瓶颈:上下文存储与吞吐量
虽然原始计算能力提升了5倍,但推理面临的挑战不同——单靠GPU周期无法解决。NVIDIA推出了三款集成产品,专门应对推理世界中的特定瓶颈。
( Spectrum-X以太网集成光学:网络作为关键基础设施
传统网络交换消耗大量电力并引入延迟,削弱推理性能。基于Spectrum-X架构的Spectrum-X Ethernet CPO采用两芯片设计,实现了5倍的能效、10倍的可靠性提升和5倍的应用正常运行时间改善。512端口系统每端口800Gb/s,总容量达102.4Tb/s。
直接影响是:每天处理的Token数量增加,降低每Token的成本,最终使数据中心TCO降低一个NVIDIA认为具有变革性的倍数。
) 推理上下文存储平台:实现KV缓存的规模化实用
Agentic AI系统的推理任务——多轮对话、检索增强生成(RAG)和多步推理——都需要持久的上下文存储。当前系统面临悖论:GPU内存快但稀缺,网络存储丰富但太慢。NVIDIA推理上下文存储平台通过将上下文作为基础设施中的一等数据类型,弥合了这一差距。
在BlueField-4和Spectrum-X的加持下,这一新存储层通过专用NVLink互连连接GPU集群。系统不在每次推理步骤中重新计算键值缓存,而是将其存储在优化的存储中,实现推理性能提升5倍,能效提升5倍。对于从无状态聊天机器人演变为能跨越数百万Token进行推理的有状态智能体的AI系统,这一架构补充消除了一个根本的扩展瓶颈。
NVIDIA正与存储合作伙伴合作,将此平台直接集成到基于Rubin的部署中,作为一体化AI基础设施的核心元素,而非事后补充。
( DGX SuperPOD )Vera Rubin版###:成本最优推理的工厂蓝图
DGX SuperPOD作为NVIDIA大规模AI推理部署的参考架构,基于八个DGX Vera Rubin NVL72系统,利用NVLink 6实现垂直网络扩展,Spectrum-X Ethernet实现横向扩展,以及推理上下文存储平台进行上下文调度。全部由NVIDIA Mission Control软件管理。
结果是:与Blackwell时代的基础设施相比,训练等规模的MoE模型所需GPU数量减少至1/4,大规模MoE推理的Token成本降低至1/10。对云服务商和企业而言,这是一个巨大的经济杠杆——用更少的GPU处理相同工作负载,带来数十亿美元的基础设施节省。
Nemotron、Blueprints与开源加速:构建多模型、多云AI系统
在硬件公告同期,NVIDIA宣布了其最大规模的开源扩展。2025年,公司向Hugging Face贡献了650个开源模型和250个开源数据集,成为该平台最大的贡献者。主流指标显示,开源模型的使用在过去一年增长了20倍,约占所有推理Token的25%。
公司还在扩展Nemotron家族,推出新模型:Agentic RAG系统、专用安全模型和多模态AI应用的语音模型。关键是,NVIDIA将这些模型作为孤立的单元发布,而是作为更大框架Blueprints中的组件。
Blueprints体现了黄仁勋从观察Perplexity和早期AI代理平台中得出的关键架构洞察:生产级的Agentic AI本质上是多模型、多云和混合云的。该框架使开发者能够:
这些曾经是科幻的抽象,现在通过NVIDIA与Blueprints的SaaS集成,开发者可以轻松实现。类似的实现也出现在企业平台如ServiceNow和Snowflake上,标志着企业AI系统级思维的转变。
战略意义在于:NVIDIA正同时实现前沿AI能力的普及,同时巩固其软件生态系统,成为AI代理构建的事实标准。
物理AI:从模拟到现实——Alpha-Mayo与机器人技术的拐点
继基础设施和开源模型之后,黄仁勋转向他定义的关键前沿:物理AI——感知物理世界、推理并直接生成行动的系统。这一转变类似于AI的前几个时代:感知AI、生成AI、代理AI。物理AI代表着智能进入具身系统的阶段。
黄仁勋提出了三台计算机架构,用于物理AI开发:
支撑这一体系的基础模型是Cosmos World Foundation Model,它整合语言、图像、3D几何和物理定律,支持从仿真到实际部署的完整流程。
( Alpha-Mayo:自动驾驶作为切入点
自动驾驶是物理AI首次大规模部署的窗口。NVIDIA发布了Alpha-Mayo,一个完整系统,包括开源模型、仿真工具和数据集,用于Level 4自动驾驶开发。
Alpha-Mayo采用基于推理的范式,而非纯端到端学习。10亿参数模型将问题拆解成离散步骤,推理可能性,选择最安全的轨迹。这一架构使车辆能够应对前所未有的极端情况——如繁忙交叉口的交通灯故障——通过应用学到的推理而非记忆模式。
在实际部署中,系统接受文本提示、全景摄像头、车辆状态历史和导航输入,输出驾驶轨迹和推理的自然语言解释。这种透明性对于监管认证和乘客信任至关重要。
梅赛德斯-奔驰CLA:NVIDIA确认,搭载Alpha-Mayo的全新梅赛德斯-奔驰CLA已进入生产阶段,并在最新的NCAP(新车评估计划)中获得最高安全评级)。该车型支持免提高速公路驾驶和端到端城市自动导航,2026年晚些时候将在美国市场推出增强功能。每一行代码、芯片和系统组件都经过正式安全认证。
NVIDIA还发布了:
( 机器人合作与工业集成
除了交通领域,NVIDIA宣布了广泛的机器人合作。领先企业——Boston Dynamics、Franka Robotics、Surgical、LG Electronics、NEURA、XRLabs和Logic Robotics——都在构建基于NVIDIA Isaac )仿真与开发平台(和GR00T )机器人基础模型###的系统。
此外,NVIDIA还宣布与西门子的战略合作。合作将NVIDIA CUDA-X库、AI模型和Omniverse数字孪生集成到西门子的EDA、CAE和数字孪生工具中。这将推动物理AI贯穿设计、仿真、制造到实际部署的整个生命周期。
战略:开源速度与硬件锁定的结合
这场1.5小时的主旨演讲凝聚了NVIDIA迈入推理时代的双重战略。一方面,公司积极开源模型、数据集和开发工具;另一方面,通过深度协同优化,使其硬件、互连和系统设计变得越来越不可替代。
这形成了良性循环:
从NVLink 6互连到推理上下文存储平台的系统级设计理念,使竞争对手难以复制NVIDIA的整体拥有成本优势。所谓“开放”其实是通过Nemotron和Blueprints强化了公司的护城河,使其平台成为追求灵活性与性能的AI开发者的首选。随着AI行业从训练主导转向推理主导,这一闭环策略——不断扩大需求、降低Token成本、实现基础设施锁定——正不断扩大NVIDIA的经济护城河,甚至可能使竞争对手在推理和物理AI时代难以逾越。