Vào ngày 5 tháng 1 tại CES 2026, CEO NVIDIA Jensen Huang đã chỉ huy sân khấu trong chiếc áo khoác da đặc trưng của mình suốt 1,5 giờ, cô đọng tầm nhìn tham vọng nhất của công ty về kỷ nguyên AI thành một bài thuyết trình đơn lẻ, tác động cao. Tám thông báo lớn đã xuất hiện từ khung thời gian ngắn này, định hình lại bối cảnh cạnh tranh từ huấn luyện mô hình AI hướng tới điều mà NVIDIA xem là chân trời tiếp theo: suy luận hiệu quả về chi phí ở quy mô lớn và AI vật lý tích hợp xuyên suốt thế giới thực.
Ý nghĩa ngầm dưới các thông báo này phản ánh một sự chuyển dịch thị trường cơ bản. Khi kích thước mô hình tăng gấp 10 lần mỗi năm và số token suy luận mở rộng gấp 5 lần hàng năm—trong khi chi phí trên token giảm 10 lần—ngành công nghiệp tính toán đang đối mặt với một giới hạn mới: suy luận đã trở thành điểm nghẽn, không còn là huấn luyện. Toàn bộ kiến trúc Vera Rubin của NVIDIA, được công bố cách đây 1,5 giờ, được thiết kế dựa trên thực tế này.
Sáu Chip Tùy Chỉnh Trong Một Kệ: Siêu Máy Tính AI Vera Rubin Tái Tưởng Tượng Độ Dày và Hiệu Suất
Tại trung tâm phần cứng là NVIDIA Vera Rubin POD, một siêu máy tính AI được xây dựng theo mục đích, tích hợp sáu chip độc quyền được thiết kế để hoạt động đồng bộ. Triết lý thiết kế chung này đánh dấu sự thoát khỏi phương pháp mô-đun đã định hình các thế hệ trước. Hệ thống flagship, Vera Rubin NVL72, chứa 2 nghìn tỷ transistor trong một kệ duy nhất, cung cấp hiệu suất suy luận NVFP4 3.6 EFLOPS—gấp năm lần so với thế hệ Blackwell trước đó.
Kiến trúc phân chia như sau:
Vera CPU: Xây dựng dựa trên 88 lõi Olympus tùy chỉnh với 176 luồng của công nghệ Đa luồng Không gian của NVIDIA. Nó hỗ trợ băng thông NVLink-C2C 1.8TB/s, cho phép bộ nhớ thống nhất CPU-GPU liền mạch. Bộ nhớ hệ thống mở rộng đến 1.5TB—gấp ba lần CPU Grace—với băng thông LPDDR5X 1.2TB/s. CPU nhân đôi hiệu suất xử lý dữ liệu và giới thiệu tính toán bảo mật cấp rack, là TEE thực sự đầu tiên bao phủ cả CPU và GPU.
Rubin GPU: Trung tâm giới thiệu một động cơ Transformer cho phép suy luận NVFP4 50 PFLOPS (5x Blackwell) và huấn luyện NVFP4 35 PFLOPS (3.5x Blackwell). Nó hỗ trợ bộ nhớ HBM4 với băng thông 22TB/s—gấp 2.8 lần thế hệ trước—quan trọng để xử lý các mô hình Mixture-of-Experts (MoE) khổng lồ. Tương thích ngược đảm bảo quá trình di chuyển mượt mà từ các triển khai Blackwell hiện có.
NVLink 6 Switch: Tốc độ theo làn tăng lên 400Gbps, đạt băng thông liên kết toàn phần 3.6TB/s mỗi GPU (2x thế hệ trước). Tổng băng thông liên kết chéo đạt 28.8TB/s, với tính toán trong mạng cung cấp 14.4 TFLOPS ở độ chính xác FP8. Hệ thống hoạt động ở 100% làm mát bằng chất lỏng, loại bỏ giới hạn nhiệt.
ConnectX-9 SuperNIC: Cung cấp băng thông 1.6Tb/s cho mỗi GPU, hoàn toàn lập trình được và định nghĩa bằng phần mềm cho các tải trọng AI quy mô lớn.
BlueField-4 DPU: Một NIC thông minh 800Gbps trang bị CPU Grace 64 lõi và ConnectX-9. Nó xử lý các tác vụ mạng và lưu trữ trong khi nâng cao bảo mật—đạt hiệu suất tính toán gấp 6 lần và băng thông bộ nhớ gấp 3 lần thế hệ trước, với truy cập GPU-đến-lưu trữ nhanh gấp 2 lần.
Spectrum-X 102.4T CPO: Một bộ chuyển mạch quang tích hợp sử dụng công nghệ SerDes 200Gbps, cung cấp 102.4Tb/s trên mỗi ASIC. Cấu hình mật độ cao 512 cổng (800Gb/s mỗi cổng) cho phép toàn bộ hệ thống hoạt động như một thực thể thống nhất thay vì các thành phần riêng biệt.
Thời gian lắp ráp đã rút ngắn từ hai giờ xuống còn năm phút, trong khi các cửa sổ bảo trì đã bị loại bỏ nhờ kiến trúc NVLink Switch không downtime. Thiết kế mô-đun của hệ thống, nay không cần cáp và quạt ở cấp khay tính toán, giúp dịch vụ nhanh hơn 18 lần so với các thế hệ trước. Những lợi ích vận hành này trực tiếp chuyển thành giảm TCO trung tâm dữ liệu và nâng cao thời gian hoạt động.
Ba Nền Tảng Chuyên Biệt Nhắm Vào Giới Hạn Thực của Suy Luận AI: Lưu Trữ Ngữ Cảnh và Tốc Độ Xử Lý
Trong khi sức mạnh tính toán thô cải thiện gấp 5 lần, suy luận lại đặt ra một vấn đề khác—một vấn đề mà chu kỳ GPU thuần túy không thể giải quyết một mình. NVIDIA giới thiệu ba sản phẩm tích hợp để giải quyết khoảng trống này, mỗi sản phẩm nhắm vào một điểm nghẽn cụ thể trong thế giới mở rộng suy luận.
Spectrum-X Ethernet Co-Packaged Optics: Mạng như Hạ tầng Quan Trọng
Chuyển mạch mạng truyền thống tiêu thụ năng lượng lớn và gây ra độ trễ làm giảm hiệu suất suy luận. Spectrum-X Ethernet CPO, dựa trên kiến trúc Spectrum-X với thiết kế hai chip, đạt hiệu quả năng lượng gấp 5 lần, độ tin cậy cao hơn 10 lần và thời gian hoạt động ứng dụng tốt hơn 5 lần. Hệ thống 512 cổng hoạt động ở 800Gb/s mỗi cổng, mở rộng tổng công suất lên 102.4Tb/s.
Hệ quả trực tiếp: nhiều token hơn được xử lý mỗi ngày sẽ dẫn đến chi phí trên token thấp hơn, cuối cùng giảm TCO trung tâm dữ liệu theo mức NVIDIA xem là mang tính biến đổi cho các nhà vận hành quy mô siêu lớn.
Inference Context Memory Storage Platform: Làm Cho KV Cache Thực Tiễn Ở Quy Mô Lớn
Các tải trọng suy luận cho hệ thống AI Agentic—đa vòng đối thoại, Retrieval-Augmented Generation (RAG), và suy luận đa bước—đòi hỏi lưu trữ ngữ cảnh liên tục. Các hệ thống hiện tại đối mặt với nghịch lý: bộ nhớ GPU nhanh nhưng khan hiếm; lưu trữ mạng phong phú nhưng quá chậm để truy cập ngữ cảnh ngắn hạn. NVIDIA Inference Context Memory Storage Platform thu hẹp khoảng cách này bằng cách xem ngữ cảnh như một loại dữ liệu chính trong hạ tầng.
Được tăng tốc bởi BlueField-4 và Spectrum-X, tầng lưu trữ mới này kết nối với các cụm GPU qua các liên kết NVLink chuyên dụng. Thay vì tính lại cache key-value ở mỗi bước suy luận, hệ thống duy trì chúng trong bộ nhớ tối ưu, đạt hiệu suất suy luận tốt hơn 5 lần và hiệu quả năng lượng gấp 5 lần cho các tải trọng nặng về ngữ cảnh. Đối với các hệ thống AI từ chatbot không trạng thái đến đại lý có trạng thái, có khả năng lý luận qua hàng triệu token, bổ sung kiến trúc này loại bỏ một điểm nghẽn mở rộng cơ bản.
NVIDIA hợp tác với các đối tác lưu trữ để tích hợp trực tiếp nền tảng này vào các triển khai dựa trên Rubin, định vị nó như một thành phần cốt lõi của hạ tầng AI hoàn chỉnh thay vì là phần phụ.
DGX SuperPOD (Vera Rubin Edition): Bản Thiết Kế Nhà Máy Cho Suy Luận Hiệu Quả Chi Phí
DGX SuperPOD đóng vai trò như kiến trúc tham khảo của NVIDIA cho triển khai suy luận AI quy mô lớn. Xây dựng dựa trên tám hệ thống DGX Vera Rubin NVL72, nó tận dụng NVLink 6 để mở rộng mạng dọc, Spectrum-X Ethernet để mở rộng theo chiều ngang, và Inference Context Memory Storage Platform để điều phối ngữ cảnh. Toàn bộ hệ thống được quản lý bằng phần mềm NVIDIA Mission Control.
Kết quả: so với hạ tầng thời Blackwell, huấn luyện các mô hình MoE quy mô tương đương yêu cầu 1/4 số GPU, và chi phí token cho suy luận MoE lớn giảm xuống còn 1/10. Đối với nhà cung cấp đám mây và doanh nghiệp, đây là một đòn bẩy kinh tế lớn—các tải trọng công việc cùng một lúc xử lý trên số GPU ít hơn nhiều, dẫn đến tiết kiệm hạ tầng hàng tỷ đô la quy mô lớn.
Nemotron, Blueprints và Gia Tăng Mã Nguồn Mở: Xây Dựng Hệ Thống AI Đa Mô Hình, Đa Đám Mây
Song song với các thông báo phần cứng, NVIDIA công bố mở rộng mã nguồn lớn nhất từ trước đến nay. Trong năm 2025, công ty đã đóng góp 650 mô hình mã nguồn mở và 250 bộ dữ liệu mã nguồn mở cho Hugging Face, trở thành nhà đóng góp lớn nhất cho nền tảng này. Các chỉ số chính thống cho thấy việc sử dụng mô hình mã nguồn mở đã tăng 20 lần trong năm qua, chiếm khoảng 25% tổng số token suy luận.
Công ty đang mở rộng Nemotron với các mô hình mới: hệ thống RAG Agentic, mô hình an toàn chuyên biệt, và mô hình thoại dành cho các ứng dụng AI đa phương thức. Quan trọng là, NVIDIA cung cấp các mô hình này không phải như các mô hình riêng lẻ mà như các thành phần trong một khung lớn gọi là Blueprints.
Blueprints thể hiện một cái nhìn kiến trúc chính mà Jensen Huang rút ra từ việc quan sát Perplexity và các nền tảng AI agent giai đoạn đầu: AI agentic đạt tiêu chuẩn sản xuất vốn dĩ là đa mô hình, đa đám mây và lai đám mây theo bản chất. Khung này cho phép các nhà phát triển:
Điều hướng nhiệm vụ một cách linh hoạt: các mô hình riêng tư cục bộ cho các tải trọng nhạy cảm về độ trễ, các mô hình đám mây tiên tiến cho khả năng đột phá
Gọi API và công cụ bên ngoài một cách liền mạch (email hệ thống, điều khiển robot, dịch vụ lịch)
Kết hợp đầu vào đa phương thức—văn bản, giọng nói, hình ảnh, dữ liệu cảm biến robot—thành các biểu diễn thống nhất
Những khả năng này, từng là giả tưởng khoa học viễn tưởng, giờ đã đến tay các nhà phát triển qua tích hợp SaaS của NVIDIA với Blueprints. Các triển khai tương tự đang xuất hiện trên các nền tảng doanh nghiệp như ServiceNow và Snowflake, báo hiệu một sự chuyển dịch hướng tới tư duy hệ thống trong AI doanh nghiệp.
Ý nghĩa chiến lược: NVIDIA đang đồng thời phổ biến khả năng AI tiên phong trong khi củng cố hệ sinh thái phần mềm của mình như tiêu chuẩn bất khả xâm phạm để xây dựng AI agent.
AI Vật Lý: Từ Mô Phỏng Đến Thực Tế—Alpha-Mayo và Điểm Giao Thoa Robot
Sau hạ tầng và các mô hình mở, Huang chuyển hướng sang điều mà ông xem là chân trời định nghĩa: AI vật lý—các hệ thống cảm nhận thế giới vật lý, lý luận về nó, và tạo ra hành động trực tiếp. Quá trình chuyển đổi phản ánh các giai đoạn trước của AI: AI cảm nhận, AI sinh tạo, AI agentic. AI vật lý đại diện cho giai đoạn mà trí tuệ bước vào các hệ thống thể hiện.
Huang phác thảo kiến trúc ba máy tính cho phát triển AI vật lý:
Máy tính huấn luyện (DGX): Xây dựng các mô hình nền tảng
Máy tính suy luận (chip nhúng trong robot/xe cộ): Thực thi các quyết định thời gian thực
Máy tính mô phỏng (Omniverse): Tạo dữ liệu tổng hợp và xác nhận lý luận vật lý
Mô hình nền tảng làm nền tảng cho ngăn xếp này là Cosmos World Foundation Model, phù hợp hóa ngôn ngữ, hình ảnh, hình học 3D và các luật vật lý để hỗ trợ toàn bộ quy trình từ mô phỏng đến triển khai trực tiếp.
Alpha-Mayo: Tự Động Hóa Lái Xe Như Giai Đoạn Tiên Phong
Lái xe tự động đại diện cho giai đoạn triển khai quy mô lớn đầu tiên của AI vật lý. NVIDIA phát hành Alpha-Mayo, một hệ thống hoàn chỉnh gồm các mô hình mã nguồn mở, công cụ mô phỏng và bộ dữ liệu cho phát triển lái xe tự động cấp độ 4.
Alpha-Mayo hoạt động dựa trên nguyên tắc lý luận hơn là hành vi học hoàn toàn từ đầu đến cuối. Mô hình 10 tỷ tham số phân chia vấn đề thành các bước rời rạc, lý luận qua các khả năng, và chọn quỹ đạo an toàn nhất. Kiến trúc này cho phép xe xử lý các trường hợp ngoại lệ chưa từng có—như lỗi đèn giao thông tại các ngã tư đông đúc—bằng cách áp dụng lý luận đã học thay vì ghi nhớ mẫu.
Trong triển khai thực tế, hệ thống chấp nhận lệnh bằng văn bản, hình ảnh từ camera toàn cảnh, lịch sử trạng thái xe, và dữ liệu định hướng, xuất ra quỹ đạo lái xe và lời giải thích bằng ngôn ngữ tự nhiên về lý luận. Sự minh bạch này là yếu tố then chốt cho chứng nhận pháp lý và niềm tin của hành khách.
Mercedes-Benz CLA: NVIDIA xác nhận rằng Mercedes-Benz CLA mới, được trang bị Alpha-Mayo, đã bắt đầu sản xuất và gần đây đạt xếp hạng an toàn cao nhất từ NCAP (Chương Trình Đánh Giá Xe Mới). Xe cung cấp khả năng lái tự do trên cao tốc và điều hướng đô thị toàn diện, với các khả năng nâng cao sẽ ra mắt tại thị trường Mỹ vào cuối năm 2026. Mọi dòng mã, chip và thành phần hệ thống đều đã trải qua chứng nhận an toàn chính thức.
NVIDIA cũng phát hành:
Một phần bộ dữ liệu dùng để huấn luyện Alpha-Mayo cho các nhà nghiên cứu tinh chỉnh
Alpha-Sim, khung mô phỏng mã nguồn mở để đánh giá hiệu suất Alpha-Mayo
Các công cụ giúp nhà phát triển kết hợp dữ liệu thực và tổng hợp cho các ứng dụng lái xe tự động tùy chỉnh
Hợp Tác Robot và Tích Hợp Công Nghiệp
Ngoài lĩnh vực vận tải, NVIDIA công bố các hợp tác rộng rãi trong lĩnh vực robot. Các công ty hàng đầu—Boston Dynamics, Franka Robotics, Surgical, LG Electronics, NEURA, XRLabs, và Logic Robotics—đang xây dựng hệ thống dựa trên NVIDIA Isaac (nền tảng mô phỏng và phát triển) và GR00T (mô hình nền tảng cho robot).
Ngoài ra, NVIDIA công bố hợp tác chiến lược với Siemens. Sự hợp tác này tích hợp thư viện CUDA-X của NVIDIA, các mô hình AI, và các bản sao kỹ thuật số Omniverse vào các công cụ EDA, CAE và mô hình kỹ thuật số của Siemens. Điều này định vị AI vật lý xuyên suốt vòng đời từ thiết kế, mô phỏng đến sản xuất và triển khai thực tế.
Chiến Lược: Tốc Độ Mã Nguồn Mở Gặp Gỡ Sự Khóa Chặt Phần Cứng
Bài phát biểu dài 1,5 giờ đã thể hiện rõ chiến lược kép của NVIDIA hướng tới kỷ nguyên suy luận. Một mặt, công ty tích cực mở mã nguồn các mô hình, bộ dữ liệu và công cụ phát triển. Mặt khác, nó làm cho phần cứng, các liên kết và thiết kế hệ thống của mình ngày càng không thể thay thế thông qua tối ưu hóa sâu.
Điều này tạo ra một chu trình thuận lợi:
Các mô hình và công cụ mã nguồn mở thúc đẩy sự chấp nhận
Sự chấp nhận rộng rãi thúc đẩy nhu cầu mở rộng suy luận
Mở rộng suy luận đòi hỏi phần cứng đặc thù của NVIDIA để đạt hiệu suất chi phí hợp lý
Khi khối lượng token mở rộng, khách hàng bị khóa vào hạ tầng của NVIDIA
Triết lý thiết kế hệ thống—từ các liên kết NVLink 6 đến Inference Context Memory Storage Platform—làm cho các đối thủ khó có thể sao chép lợi thế tổng TCO của NVIDIA. Những gì trông có vẻ như NVIDIA “mở ra” qua Nemotron và Blueprints thực chất lại củng cố rào cản của công ty bằng cách khiến nền tảng của nó trở thành lựa chọn rõ ràng cho các nhà phát triển AI vừa linh hoạt vừa hiệu quả.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Jensen Huang đã công bố tám thông báo lớn chỉ trong 1,5 giờ, định hình lộ trình của NVIDIA hướng tới thống trị trong lĩnh vực suy luận và robot
Vào ngày 5 tháng 1 tại CES 2026, CEO NVIDIA Jensen Huang đã chỉ huy sân khấu trong chiếc áo khoác da đặc trưng của mình suốt 1,5 giờ, cô đọng tầm nhìn tham vọng nhất của công ty về kỷ nguyên AI thành một bài thuyết trình đơn lẻ, tác động cao. Tám thông báo lớn đã xuất hiện từ khung thời gian ngắn này, định hình lại bối cảnh cạnh tranh từ huấn luyện mô hình AI hướng tới điều mà NVIDIA xem là chân trời tiếp theo: suy luận hiệu quả về chi phí ở quy mô lớn và AI vật lý tích hợp xuyên suốt thế giới thực.
Ý nghĩa ngầm dưới các thông báo này phản ánh một sự chuyển dịch thị trường cơ bản. Khi kích thước mô hình tăng gấp 10 lần mỗi năm và số token suy luận mở rộng gấp 5 lần hàng năm—trong khi chi phí trên token giảm 10 lần—ngành công nghiệp tính toán đang đối mặt với một giới hạn mới: suy luận đã trở thành điểm nghẽn, không còn là huấn luyện. Toàn bộ kiến trúc Vera Rubin của NVIDIA, được công bố cách đây 1,5 giờ, được thiết kế dựa trên thực tế này.
Sáu Chip Tùy Chỉnh Trong Một Kệ: Siêu Máy Tính AI Vera Rubin Tái Tưởng Tượng Độ Dày và Hiệu Suất
Tại trung tâm phần cứng là NVIDIA Vera Rubin POD, một siêu máy tính AI được xây dựng theo mục đích, tích hợp sáu chip độc quyền được thiết kế để hoạt động đồng bộ. Triết lý thiết kế chung này đánh dấu sự thoát khỏi phương pháp mô-đun đã định hình các thế hệ trước. Hệ thống flagship, Vera Rubin NVL72, chứa 2 nghìn tỷ transistor trong một kệ duy nhất, cung cấp hiệu suất suy luận NVFP4 3.6 EFLOPS—gấp năm lần so với thế hệ Blackwell trước đó.
Kiến trúc phân chia như sau:
Vera CPU: Xây dựng dựa trên 88 lõi Olympus tùy chỉnh với 176 luồng của công nghệ Đa luồng Không gian của NVIDIA. Nó hỗ trợ băng thông NVLink-C2C 1.8TB/s, cho phép bộ nhớ thống nhất CPU-GPU liền mạch. Bộ nhớ hệ thống mở rộng đến 1.5TB—gấp ba lần CPU Grace—với băng thông LPDDR5X 1.2TB/s. CPU nhân đôi hiệu suất xử lý dữ liệu và giới thiệu tính toán bảo mật cấp rack, là TEE thực sự đầu tiên bao phủ cả CPU và GPU.
Rubin GPU: Trung tâm giới thiệu một động cơ Transformer cho phép suy luận NVFP4 50 PFLOPS (5x Blackwell) và huấn luyện NVFP4 35 PFLOPS (3.5x Blackwell). Nó hỗ trợ bộ nhớ HBM4 với băng thông 22TB/s—gấp 2.8 lần thế hệ trước—quan trọng để xử lý các mô hình Mixture-of-Experts (MoE) khổng lồ. Tương thích ngược đảm bảo quá trình di chuyển mượt mà từ các triển khai Blackwell hiện có.
NVLink 6 Switch: Tốc độ theo làn tăng lên 400Gbps, đạt băng thông liên kết toàn phần 3.6TB/s mỗi GPU (2x thế hệ trước). Tổng băng thông liên kết chéo đạt 28.8TB/s, với tính toán trong mạng cung cấp 14.4 TFLOPS ở độ chính xác FP8. Hệ thống hoạt động ở 100% làm mát bằng chất lỏng, loại bỏ giới hạn nhiệt.
ConnectX-9 SuperNIC: Cung cấp băng thông 1.6Tb/s cho mỗi GPU, hoàn toàn lập trình được và định nghĩa bằng phần mềm cho các tải trọng AI quy mô lớn.
BlueField-4 DPU: Một NIC thông minh 800Gbps trang bị CPU Grace 64 lõi và ConnectX-9. Nó xử lý các tác vụ mạng và lưu trữ trong khi nâng cao bảo mật—đạt hiệu suất tính toán gấp 6 lần và băng thông bộ nhớ gấp 3 lần thế hệ trước, với truy cập GPU-đến-lưu trữ nhanh gấp 2 lần.
Spectrum-X 102.4T CPO: Một bộ chuyển mạch quang tích hợp sử dụng công nghệ SerDes 200Gbps, cung cấp 102.4Tb/s trên mỗi ASIC. Cấu hình mật độ cao 512 cổng (800Gb/s mỗi cổng) cho phép toàn bộ hệ thống hoạt động như một thực thể thống nhất thay vì các thành phần riêng biệt.
Thời gian lắp ráp đã rút ngắn từ hai giờ xuống còn năm phút, trong khi các cửa sổ bảo trì đã bị loại bỏ nhờ kiến trúc NVLink Switch không downtime. Thiết kế mô-đun của hệ thống, nay không cần cáp và quạt ở cấp khay tính toán, giúp dịch vụ nhanh hơn 18 lần so với các thế hệ trước. Những lợi ích vận hành này trực tiếp chuyển thành giảm TCO trung tâm dữ liệu và nâng cao thời gian hoạt động.
Ba Nền Tảng Chuyên Biệt Nhắm Vào Giới Hạn Thực của Suy Luận AI: Lưu Trữ Ngữ Cảnh và Tốc Độ Xử Lý
Trong khi sức mạnh tính toán thô cải thiện gấp 5 lần, suy luận lại đặt ra một vấn đề khác—một vấn đề mà chu kỳ GPU thuần túy không thể giải quyết một mình. NVIDIA giới thiệu ba sản phẩm tích hợp để giải quyết khoảng trống này, mỗi sản phẩm nhắm vào một điểm nghẽn cụ thể trong thế giới mở rộng suy luận.
Spectrum-X Ethernet Co-Packaged Optics: Mạng như Hạ tầng Quan Trọng
Chuyển mạch mạng truyền thống tiêu thụ năng lượng lớn và gây ra độ trễ làm giảm hiệu suất suy luận. Spectrum-X Ethernet CPO, dựa trên kiến trúc Spectrum-X với thiết kế hai chip, đạt hiệu quả năng lượng gấp 5 lần, độ tin cậy cao hơn 10 lần và thời gian hoạt động ứng dụng tốt hơn 5 lần. Hệ thống 512 cổng hoạt động ở 800Gb/s mỗi cổng, mở rộng tổng công suất lên 102.4Tb/s.
Hệ quả trực tiếp: nhiều token hơn được xử lý mỗi ngày sẽ dẫn đến chi phí trên token thấp hơn, cuối cùng giảm TCO trung tâm dữ liệu theo mức NVIDIA xem là mang tính biến đổi cho các nhà vận hành quy mô siêu lớn.
Inference Context Memory Storage Platform: Làm Cho KV Cache Thực Tiễn Ở Quy Mô Lớn
Các tải trọng suy luận cho hệ thống AI Agentic—đa vòng đối thoại, Retrieval-Augmented Generation (RAG), và suy luận đa bước—đòi hỏi lưu trữ ngữ cảnh liên tục. Các hệ thống hiện tại đối mặt với nghịch lý: bộ nhớ GPU nhanh nhưng khan hiếm; lưu trữ mạng phong phú nhưng quá chậm để truy cập ngữ cảnh ngắn hạn. NVIDIA Inference Context Memory Storage Platform thu hẹp khoảng cách này bằng cách xem ngữ cảnh như một loại dữ liệu chính trong hạ tầng.
Được tăng tốc bởi BlueField-4 và Spectrum-X, tầng lưu trữ mới này kết nối với các cụm GPU qua các liên kết NVLink chuyên dụng. Thay vì tính lại cache key-value ở mỗi bước suy luận, hệ thống duy trì chúng trong bộ nhớ tối ưu, đạt hiệu suất suy luận tốt hơn 5 lần và hiệu quả năng lượng gấp 5 lần cho các tải trọng nặng về ngữ cảnh. Đối với các hệ thống AI từ chatbot không trạng thái đến đại lý có trạng thái, có khả năng lý luận qua hàng triệu token, bổ sung kiến trúc này loại bỏ một điểm nghẽn mở rộng cơ bản.
NVIDIA hợp tác với các đối tác lưu trữ để tích hợp trực tiếp nền tảng này vào các triển khai dựa trên Rubin, định vị nó như một thành phần cốt lõi của hạ tầng AI hoàn chỉnh thay vì là phần phụ.
DGX SuperPOD (Vera Rubin Edition): Bản Thiết Kế Nhà Máy Cho Suy Luận Hiệu Quả Chi Phí
DGX SuperPOD đóng vai trò như kiến trúc tham khảo của NVIDIA cho triển khai suy luận AI quy mô lớn. Xây dựng dựa trên tám hệ thống DGX Vera Rubin NVL72, nó tận dụng NVLink 6 để mở rộng mạng dọc, Spectrum-X Ethernet để mở rộng theo chiều ngang, và Inference Context Memory Storage Platform để điều phối ngữ cảnh. Toàn bộ hệ thống được quản lý bằng phần mềm NVIDIA Mission Control.
Kết quả: so với hạ tầng thời Blackwell, huấn luyện các mô hình MoE quy mô tương đương yêu cầu 1/4 số GPU, và chi phí token cho suy luận MoE lớn giảm xuống còn 1/10. Đối với nhà cung cấp đám mây và doanh nghiệp, đây là một đòn bẩy kinh tế lớn—các tải trọng công việc cùng một lúc xử lý trên số GPU ít hơn nhiều, dẫn đến tiết kiệm hạ tầng hàng tỷ đô la quy mô lớn.
Nemotron, Blueprints và Gia Tăng Mã Nguồn Mở: Xây Dựng Hệ Thống AI Đa Mô Hình, Đa Đám Mây
Song song với các thông báo phần cứng, NVIDIA công bố mở rộng mã nguồn lớn nhất từ trước đến nay. Trong năm 2025, công ty đã đóng góp 650 mô hình mã nguồn mở và 250 bộ dữ liệu mã nguồn mở cho Hugging Face, trở thành nhà đóng góp lớn nhất cho nền tảng này. Các chỉ số chính thống cho thấy việc sử dụng mô hình mã nguồn mở đã tăng 20 lần trong năm qua, chiếm khoảng 25% tổng số token suy luận.
Công ty đang mở rộng Nemotron với các mô hình mới: hệ thống RAG Agentic, mô hình an toàn chuyên biệt, và mô hình thoại dành cho các ứng dụng AI đa phương thức. Quan trọng là, NVIDIA cung cấp các mô hình này không phải như các mô hình riêng lẻ mà như các thành phần trong một khung lớn gọi là Blueprints.
Blueprints thể hiện một cái nhìn kiến trúc chính mà Jensen Huang rút ra từ việc quan sát Perplexity và các nền tảng AI agent giai đoạn đầu: AI agentic đạt tiêu chuẩn sản xuất vốn dĩ là đa mô hình, đa đám mây và lai đám mây theo bản chất. Khung này cho phép các nhà phát triển:
Những khả năng này, từng là giả tưởng khoa học viễn tưởng, giờ đã đến tay các nhà phát triển qua tích hợp SaaS của NVIDIA với Blueprints. Các triển khai tương tự đang xuất hiện trên các nền tảng doanh nghiệp như ServiceNow và Snowflake, báo hiệu một sự chuyển dịch hướng tới tư duy hệ thống trong AI doanh nghiệp.
Ý nghĩa chiến lược: NVIDIA đang đồng thời phổ biến khả năng AI tiên phong trong khi củng cố hệ sinh thái phần mềm của mình như tiêu chuẩn bất khả xâm phạm để xây dựng AI agent.
AI Vật Lý: Từ Mô Phỏng Đến Thực Tế—Alpha-Mayo và Điểm Giao Thoa Robot
Sau hạ tầng và các mô hình mở, Huang chuyển hướng sang điều mà ông xem là chân trời định nghĩa: AI vật lý—các hệ thống cảm nhận thế giới vật lý, lý luận về nó, và tạo ra hành động trực tiếp. Quá trình chuyển đổi phản ánh các giai đoạn trước của AI: AI cảm nhận, AI sinh tạo, AI agentic. AI vật lý đại diện cho giai đoạn mà trí tuệ bước vào các hệ thống thể hiện.
Huang phác thảo kiến trúc ba máy tính cho phát triển AI vật lý:
Mô hình nền tảng làm nền tảng cho ngăn xếp này là Cosmos World Foundation Model, phù hợp hóa ngôn ngữ, hình ảnh, hình học 3D và các luật vật lý để hỗ trợ toàn bộ quy trình từ mô phỏng đến triển khai trực tiếp.
Alpha-Mayo: Tự Động Hóa Lái Xe Như Giai Đoạn Tiên Phong
Lái xe tự động đại diện cho giai đoạn triển khai quy mô lớn đầu tiên của AI vật lý. NVIDIA phát hành Alpha-Mayo, một hệ thống hoàn chỉnh gồm các mô hình mã nguồn mở, công cụ mô phỏng và bộ dữ liệu cho phát triển lái xe tự động cấp độ 4.
Alpha-Mayo hoạt động dựa trên nguyên tắc lý luận hơn là hành vi học hoàn toàn từ đầu đến cuối. Mô hình 10 tỷ tham số phân chia vấn đề thành các bước rời rạc, lý luận qua các khả năng, và chọn quỹ đạo an toàn nhất. Kiến trúc này cho phép xe xử lý các trường hợp ngoại lệ chưa từng có—như lỗi đèn giao thông tại các ngã tư đông đúc—bằng cách áp dụng lý luận đã học thay vì ghi nhớ mẫu.
Trong triển khai thực tế, hệ thống chấp nhận lệnh bằng văn bản, hình ảnh từ camera toàn cảnh, lịch sử trạng thái xe, và dữ liệu định hướng, xuất ra quỹ đạo lái xe và lời giải thích bằng ngôn ngữ tự nhiên về lý luận. Sự minh bạch này là yếu tố then chốt cho chứng nhận pháp lý và niềm tin của hành khách.
Mercedes-Benz CLA: NVIDIA xác nhận rằng Mercedes-Benz CLA mới, được trang bị Alpha-Mayo, đã bắt đầu sản xuất và gần đây đạt xếp hạng an toàn cao nhất từ NCAP (Chương Trình Đánh Giá Xe Mới). Xe cung cấp khả năng lái tự do trên cao tốc và điều hướng đô thị toàn diện, với các khả năng nâng cao sẽ ra mắt tại thị trường Mỹ vào cuối năm 2026. Mọi dòng mã, chip và thành phần hệ thống đều đã trải qua chứng nhận an toàn chính thức.
NVIDIA cũng phát hành:
Hợp Tác Robot và Tích Hợp Công Nghiệp
Ngoài lĩnh vực vận tải, NVIDIA công bố các hợp tác rộng rãi trong lĩnh vực robot. Các công ty hàng đầu—Boston Dynamics, Franka Robotics, Surgical, LG Electronics, NEURA, XRLabs, và Logic Robotics—đang xây dựng hệ thống dựa trên NVIDIA Isaac (nền tảng mô phỏng và phát triển) và GR00T (mô hình nền tảng cho robot).
Ngoài ra, NVIDIA công bố hợp tác chiến lược với Siemens. Sự hợp tác này tích hợp thư viện CUDA-X của NVIDIA, các mô hình AI, và các bản sao kỹ thuật số Omniverse vào các công cụ EDA, CAE và mô hình kỹ thuật số của Siemens. Điều này định vị AI vật lý xuyên suốt vòng đời từ thiết kế, mô phỏng đến sản xuất và triển khai thực tế.
Chiến Lược: Tốc Độ Mã Nguồn Mở Gặp Gỡ Sự Khóa Chặt Phần Cứng
Bài phát biểu dài 1,5 giờ đã thể hiện rõ chiến lược kép của NVIDIA hướng tới kỷ nguyên suy luận. Một mặt, công ty tích cực mở mã nguồn các mô hình, bộ dữ liệu và công cụ phát triển. Mặt khác, nó làm cho phần cứng, các liên kết và thiết kế hệ thống của mình ngày càng không thể thay thế thông qua tối ưu hóa sâu.
Điều này tạo ra một chu trình thuận lợi:
Triết lý thiết kế hệ thống—từ các liên kết NVLink 6 đến Inference Context Memory Storage Platform—làm cho các đối thủ khó có thể sao chép lợi thế tổng TCO của NVIDIA. Những gì trông có vẻ như NVIDIA “mở ra” qua Nemotron và Blueprints thực chất lại củng cố rào cản của công ty bằng cách khiến nền tảng của nó trở thành lựa chọn rõ ràng cho các nhà phát triển AI vừa linh hoạt vừa hiệu quả.