Дженсен Хуанг зробив вісім головних оголошень всього за 1,5 години, окреслюючи шлях NVIDIA до домінування в сферах інференсу та робототехніки

5 січня на CES 2026 генеральний директор NVIDIA Дженсен Хуанг керував сценою у своїй фірмовій шкіряній куртці протягом 1,5 години, стискаючи найамбіційніше бачення компанії щодо епохи ШІ у єдину, високоефективну презентацію. Вісім ключових анонсів з’явилися за цей короткий проміжок, що змінює конкурентний ландшафт від тренування моделей ШІ до того, що NVIDIA вважає наступним рубежем: економічно ефективна інференція у масштабі та фізичний ШІ, інтегрований у реальний світ.

Підтекст цих анонсів відображає фундаментальну зміну ринку. Оскільки розміри моделей зростають у 10 разів щороку, а кількість токенів для інференції — у 5 разів щороку, при цьому вартість за токен знижується у 10 разів, індустрія обчислень стикається з новим обмеженням: інференція стала вузьким місцем, а не тренування. Вся архітектура Vera Rubin NVIDIA, анонсована за 1,5 години до цього, побудована навколо цієї реальності.

Шість спеціальних чипів у одному стелажі: переосмислення щільності та продуктивності архітектури Vera Rubin AI Supercomputer

У ядрі апаратного забезпечення знаходиться NVIDIA Vera Rubin POD — спеціально створений суперкомп’ютер для ШІ, що інтегрує шість власних чипів, розроблених для роботи у тісній синхронії. Ця концепція спільного проектування відрізняється від модульного підходу попередніх поколінь. Флагманська система, Vera Rubin NVL72, містить 2 трильйони транзисторів у одному стелажі, забезпечуючи 3,6 EFLOPS продуктивності інференції NVFP4 — у п’ять разів більше, ніж попереднє покоління Blackwell.

Архітектура розбивається так:

  • Vera CPU: побудований навколо 88 кастомних ядер Olympus із 176 потоками технології NVIDIA Space Multithreading. Підтримує пропускну здатність NVLink-C2C 1,8 ТБ/с, що забезпечує безшовну єдину пам’ять CPU-GPU. Об’єм системної пам’яті досягає 1,5 ТБ — у три рази більше, ніж у CPU Grace, з пропускною здатністю 1,2 ТБ/с LPDDR5X. CPU подвоює продуктивність обробки даних і вводить конфіденційне обчислення на рівні стелажу, перший справжній TEE, що охоплює обидві домени CPU і GPU.

  • Rubin GPU: головний елемент — трансформерний двигун, що забезпечує інференцію NVFP4 на 50 PFLOPS (5x Blackwell) та тренування NVFP4 на 35 PFLOPS (3.5x Blackwell). Підтримує пам’ять HBM4 із пропускною здатністю 22 ТБ/с — у 2,8 разу більше попереднього покоління, що критично для обробки великих моделей Mixture-of-Experts (MoE). Зворотна сумісність забезпечує плавний перехід з існуючих розгортань Blackwell.

  • NVLink 6 Switch: швидкість кожної лінії зросла до 400 Гбіт/с, досягаючи 3,6 ТБ/с повної пропускної здатності між GPU (2x попереднє покоління). Загальна пропускна здатність між комутаторами — 28,8 ТБ/с, а обчислення у мережі забезпечують 14,4 TFLOPS при FP8. Система працює на 100% з рідинним охолодженням, усуваючи теплові обмеження.

  • ConnectX-9 SuperNIC: забезпечує 1,6 Тб/с пропускної здатності на GPU, повністю програмований і налаштовуваний через програмне забезпечення для масштабних навантажень ШІ.

  • BlueField-4 DPU: розумна NIC з пропускною здатністю 800 Гбіт/с, оснащена 64-ядерним CPU Grace і ConnectX-9. Відвантажує мережеві та сховищні задачі, підвищуючи безпеку — у 6 разів вища обчислювальна продуктивність і у 3 рази більша пропускна здатність пам’яті порівняно з попереднім поколінням, а доступ до GPU до сховища — у 2 рази швидший.

  • Spectrum-X 102.4T CPO: оптичний комутатор у спайці з технологією SerDes 200 Гбіт/с, що забезпечує 102,4 Тб/с на ASIC. Конфігурація з 512 портами високої щільності (800 Гбіт/с на порт) дозволяє всій системі працювати як єдиному цілому, а не ізольованими компонентами.

Час збирання зменшився з двох годин до п’яти хвилин, а вікна обслуговування — зникли завдяки архітектурі NVLink Switch без простоїв. Модульний дизайн системи, тепер без кабелів і вентиляторів на рівні підставки для обчислень, робить її у 18 разів швидшою у обслуговуванні, ніж попередні покоління. Ці операційні переваги безпосередньо знижують TCO дата-центру та підвищують час безвідмовної роботи.

Три спеціалізовані платформи для боротьби з реальною обмеженістю інференції: збереження контексту та пропускна здатність

Хоча обчислювальна потужність зростає у 5 разів, інференція — це інша проблема, яку не може вирішити лише сирий GPU-цикл. NVIDIA представила три інтегровані продукти для подолання цього розриву, кожен із яких спрямований на конкретне вузьке місце у світі масштабованої інференції.

Spectrum-X Ethernet Co-Packaged Optics: мережа як критична інфраструктура

Традиційне мережеве перемикання споживає величезну кількість енергії і вводить затримки, що підривають продуктивність інференції. Spectrum-X Ethernet CPO, побудований на архітектурі Spectrum-X із двочиповим дизайном, досягає у 5 разів вищої енергоефективності, у 10 разів — більшої надійності та у 5 разів — покращеного часу роботи додатків. Система з 512 портами працює на 800 Гбіт/с на порт, масштабуючись до 102,4 Тб/с загальної пропускної здатності.

Наслідки очевидні: обробка більшої кількості токенів за день знижує вартість за токен, що в кінцевому підсумку зменшує TCO дата-центру у факторі, який NVIDIA вважає трансформаційним для гіперскейл-операторів.

Inference Context Memory Storage Platform: зробити KV-кеші практичними у масштабі

Навантаження на інференцію для агентних систем ШІ — багатократне спілкування, Retrieval-Augmented Generation (RAG) та багатоступеневе мислення — вимагає постійного збереження контексту. Поточні системи стикаються з парадоксом: пам’ять GPU швидка, але обмежена; сховище у мережі — багате, але надто повільне для короткострокового доступу до контексту. Платформа збереження контексту NVIDIA з’єднує цю прогалину, розглядаючи контекст як перший клас даних у інфраструктурі.

З прискоренням BlueField-4 і Spectrum-X ця нова рівень сховища підключається до кластерів GPU через спеціалізовані NVLink. Замість повторного обчислення ключ-значення кешів на кожному кроці інференції, система зберігає їх у оптимізованому сховищі, досягаючи у 5 разів кращої продуктивності інференції та у 5 разів більшої енергоефективності для контекстоємних навантажень. Для систем ШІ, що еволюціонують від безстанових чатботів до станфул-агентів, що reasoning через мільйони токенів, ця архітектурна додаткова функція усуває фундаментальне обмеження масштабування.

NVIDIA співпрацює з партнерами з зберігання даних для інтеграції цієї платформи безпосередньо у розгортання на базі Rubin, позиціонуючи її як ключовий елемент готової до роботи інфраструктури ШІ, а не як додатковий компонент.

DGX SuperPOD (Vera Rubin Edition): фабричний план для економічно оптимальної інференції

DGX SuperPOD — це орієнтовна архітектура NVIDIA для масштабного розгортання інференції ШІ. Побудований на восьми системах DGX Vera Rubin NVL72, він використовує NVLink 6 для вертикального розширення мережі, Spectrum-X Ethernet для горизонтального масштабування та платформу збереження контексту інференції для оркестрування контексту. Весь стек керується програмним забезпеченням NVIDIA Mission Control.

Результат: у порівнянні з інфраструктурою епохи Blackwell, тренування моделей MoE однакового масштабу потребує у 4 рази менше GPU, а вартість токена для великої інференції MoE — у 10 разів менше. Це дає провайдерам хмарних сервісів і підприємствам величезний економічний важіль — обробляючи ту саму роботу на значно меншій кількості GPU, що призводить до багатомільярдних заощаджень у інфраструктурі.

Nemotron, Blueprints і відкритий код для прискорення: створення багатомодельних, багатохмарних систем ШІ

Паралельно з анонсами апаратного забезпечення NVIDIA оголосила про найбільше розширення відкритого коду. У 2025 році компанія додала 650 моделей з відкритим кодом і 250 відкритих датасетів до Hugging Face, ставши найбільшим внеском у платформу. Основні показники свідчать, що використання моделей з відкритим кодом зросло у 20 разів за минулий рік і становить приблизно 25% усіх токенів інференції.

Компанія розширює сімейство Nemotron новими моделями: агентними системами RAG, спеціалізованими моделями безпеки та мовними моделями для мультимодальних застосувань ШІ. Важливо, що NVIDIA постачає їх не як ізольовані моделі, а як компоненти у рамках більшої системи під назвою Blueprints.

Blueprints втілює ключову архітектурну ідею, яку Дженсен Хуанг отримав, спостерігаючи за Perplexity і платформами ранніх агентів ШІ: агентний ШІ виробничого рівня за своєю природою є багатомодельним, багатохмарним і гібридним. Ця структура дозволяє розробникам:

  • Динамічно маршрутизувати завдання: локальні приватні моделі для затримки-чутливих навантажень, хмарні моделі для передових можливостей
  • Безшовно викликати зовнішні API та інструменти (email systems, robot control interfaces, calendar services)
  • Об’єднувати мультимодальні входи — текст, голос, зображення, дані сенсорів роботів — у єдині репрезентації

Ці можливості, колись здавалося, були фантастикою, тепер доступні розробникам через SaaS-інтеграцію NVIDIA з Blueprints. Подібні реалізації з’являються на підприємницьких платформах, таких як ServiceNow і Snowflake, сигналізуючи про перехід до системного мислення в корпоративному ШІ.

Стратегічний висновок: NVIDIA одночасно демократизує доступ до передових можливостей ШІ і закріплює свої програмні екосистеми як стандарт для побудови агентів ШІ.

Фізичний ШІ: від симуляції до реальності — Alpha-Mayo і точка інфлексії робототехніки

Після інфраструктури та відкритих моделей Хуанг переключив увагу на те, що він назвав визначальним рубежем: фізичний ШІ — системи, що сприймають фізичний світ, аналізують його і безпосередньо генерують дії. Перехід відображає попередні епохи ШІ: перцептивний ШІ, генеративний ШІ, агентний ШІ. Фізичний ШІ — це етап, коли інтелект входить у втілені системи.

Хуанг окреслив трьохкомпонентну архітектуру для розвитку фізичного ШІ:

  1. Навчальні комп’ютери (DGX): створення базових моделей
  2. Інференційні комп’ютери (вбудовані чипи у роботах/автомобілях): виконання реальних рішень
  3. Симуляційні комп’ютери (Omniverse): генерація синтетичних даних і перевірка фізичного аналізу

Базова модель, що підтримує цю систему, — Cosmos World Foundation Model, яка узгоджує мову, зображення, 3D-геометрію і закони фізики для підтримки повного циклу від симуляції до реального розгортання.

Alpha-Mayo: автономне водіння як перша точка входу

Автономне водіння — перший масштабний приклад застосування фізичного ШІ. NVIDIA випустила Alpha-Mayo — повну систему, що складається з моделей з відкритим кодом, інструментів симуляції і датасетів для розробки рівня 4 автономного водіння.

Alpha-Mayo базується на парадигмі reasoning, а не чистому навчанні від кінця до кінця. Модель з 10 мільярдами параметрів розбиває задачі на дискретні кроки, аналізує можливості і обирає найбезпечнішу траєкторію. Така архітектура дозволяє автомобілям справлятися з унікальними випадками — наприклад, несправностями світлофорів на переповнених перехрестях — застосовуючи навчений reasoning, а не запам’ятовані шаблони.

У реальному застосуванні система приймає текстові підказки, зображення з камер навколо, історію стану автомобіля і навігаційні дані, видаючи як траєкторію руху, так і природну мовну пояснювальну інтерпретацію reasoning. Ця прозорість є критичною для сертифікації і довіри пасажирів.

Mercedes-Benz CLA: NVIDIA підтвердила, що новий Mercedes-Benz CLA, побудований на базі Alpha-Mayo, вже виробляється і нещодавно отримав найвищий рейтинг безпеки від NCAP (New Car Assessment Program). Автомобіль пропонує безруке керування на автомагістралях і повну автономну навігацію у місті, з розгортанням у США наприкінці 2026 року. Усі лінії коду, чипи і компоненти систем пройшли формальну сертифікацію безпеки.

Також NVIDIA випустила:

  • підмножину датасетів для тренування Alpha-Mayo для доопрацювання дослідниками
  • Alpha-Sim — відкриту платформу симуляції для оцінки продуктивності Alpha-Mayo
  • інструменти для поєднання реальних і синтетичних даних для індивідуальних застосувань автономного водіння

Партнерства у робототехніці та промисловій інтеграції

Крім транспорту, NVIDIA оголосила про широкі колаборації у робототехніці. Провідні компанії — Boston Dynamics, Franka Robotics, Surgical, LG Electronics, NEURA, XRLabs і Logic Robotics — створюють системи на базі NVIDIA Isaac (платформи симуляції і розробки) і GR00T (базової моделі для робототехніки).

Крім того, NVIDIA представила стратегічне партнерство з Siemens. Співпраця інтегрує бібліотеки NVIDIA CUDA-X, моделі ШІ і цифрові двійники Omniverse у інструменти Siemens EDA, CAE і цифрових двійників. Це позиціонує фізичний ШІ у всьому життєвому циклі — від дизайну і симуляції до виробництва і реального застосування.

Стратегія: швидкість відкритого коду і апаратне закріплення

Ключовий виступ на 1,5 години відобразив двовекторну стратегію NVIDIA у період інференції. З одного боку, компанія активно відкриває моделі, датасети і інструменти розробки. З іншого — вона робить своє апаратне забезпечення, інтерконекти і системний дизайн дедалі незамінними через глибоку спільну оптимізацію.

Це створює замкнене коло:

  • Відкритий код і моделі прискорюють adoption
  • Більше adoption — зростає попит на масштаб інференції
  • Масштаб інференції вимагає спеціалізованого апаратного NVIDIA для досягнення економічної ефективності
  • З розширенням обсягів токенів клієнти стають закріпленими у інфраструктурі NVIDIA

Філософія системного дизайну — від інтерконектів NVLink 6 до платформи збереження контексту інференції — ускладнює конкурентам повторити переваги NVIDIA у TCO. Те, що здається «відкриттям» через Nemotron і Blueprints, фактично зміцнює стратегічну позицію компанії, роблячи її платформу очевидним вибором для розробників ШІ, що цінують і гнучкість, і продуктивність.

У міру переходу індустрії від домінування тренування до домінування інференції ця стратегія закритого циклу — постійне розширення попиту, зниження вартості токенів і закріплення інфраструктури — розширює економічну перевагу NVIDIA до рівнів, що можуть виявитися непереборними для конкурентів у період інференції та фізичного ШІ.

MAJOR-1,18%
IN60,53%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити