Следующая эра ускорения GPU: как NVIDIA Vera Rubin переопределяет аппаратное ускорение планирования GPU

На CES 2026 Дженсен Хуанг произнёс трансформирующую keynote, которая подчёркивает стратегию NVIDIA — ставку на компанию: переход от эпохи, сосредоточенной исключительно на обучении ИИ, к эпохе, доминируемой эффективной, масштабной инференцией и воплощённым интеллектом. За 90 минут генеральный директор NVIDIA представил восемь крупных анонсов, каждый из которых укреплял единую стратегию — создание плотно интегрированных систем, в которых аппаратное ускорение GPU-распределения задач и сетевые вычисления становятся неразделимыми. Посыл был ясен: будущее принадлежит не изолированным ускорителям, а системам, разработанным для экономичной пропускной способности.

Платформа Vera Rubin: шести-чиповый подход к ускоренному проектированию систем

Vera Rubin представляет собой фундаментальное переосмысление архитектуры дата-центров. Вместо того чтобы просто прикреплять ускорители к универсальной инфраструктуре, NVIDIA совместно разработала шесть взаимодополняющих чипов — Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU и Spectrum-X CPO — каждый из которых оптимизирован для работы как единая экосистема.

Vera CPU, основанный на кастомных ядрах Olympus, обрабатывает перемещение данных и агентскую обработку с 1.8TB/с NVLink-to-CPU связью, эффективно управляя координацией, необходимой для GPU-распределения задач. Rubin GPU вводит движок Transformer и возможности инференса NVFP4, достигающие 50 PFLOPS — в 5 раз превышая производительность Blackwell — при поддержке памяти HBM4 с пропускной способностью 22TB/с, что в 2.8 раза больше предыдущего поколения. Эти характеристики важны не изолированно, а потому что решают критическую проблему: по мере роста моделей и увеличения количества токенов инференса традиционные подходы к планированию GPU становятся узким местом из-за ограничений по пропускной способности памяти и затратам на перемещение данных.

Интеграция всех компонентов в систему одного стеллажа позволяет Vera Rubin NVL72 достигать 3.6 EFLOPS в инференсе при 2 триллионах транзисторов. Более того, архитектура системы обеспечивает аппаратное ускорение GPU-распределения задач в беспрецедентных масштабах. NVLink 6 Switch достигает 3.6TB/с полной межсоединительной пропускной способности на GPU (2x предыдущего поколения), с вычислениями в сети на уровне 14.4 TFLOPS FP8. Это не просто больше пропускной способности — это пропускная способность, предназначенная для устранения узких мест в планировании, присущих распределённым нагрузкам инференса.

Система использует 100% жидкостное охлаждение и оснащена модульной, бесшумной системой охлаждения, которая сокращает время сборки с двух часов до пяти минут. Обеспечивая нулевой простой через модуль NVLink Switch и второй генерации RAS-двигатель, она гарантирует необходимую для дата-центров надёжность работы инференсных кластеров. Уже более 80 партнёров MGX готовы к внедрению Vera Rubin.

Три инновации, нацеленные на границу эффективности инференса

Помимо аппаратной базы, NVIDIA выпустила три продукта, специально разработанных для устранения узких мест инференса: Spectrum-X Ethernet CPO, платформу хранения контекстной памяти для инференса и DGX SuperPOD на базе Vera Rubin.

Spectrum-X Ethernet Co-Packaged Optics использует двухчиповую архитектуру с технологией SerDes 200Gbps, обеспечивая 102.4Tb/с на ASIC. По сравнению с традиционными коммутируемыми сетями, архитектура CPO достигает в 5 раз лучшей энергоэффективности, в 10 раз — надёжности и в 5 раз — времени безотказной работы приложений. Это напрямую позволяет обрабатывать больше токенов инференса ежедневно и снижать TCO дата-центра — критическое конкурентное преимущество в гонке за стандартизацию инференса.

Платформа хранения контекстной памяти переосмысливает подход к управлению контекстом для долгих последовательностей задач ИИ. По мере того как системы Agentic AI обрабатывают многоходовые диалоги, RAG-пайплайны и сложное многошаговое рассуждение, окна контекста растут до миллионов токенов. Вместо того чтобы пересчитывать кэши ключей и значений на каждом шаге инференса — что тратит GPU-вычисления и вызывает задержки — платформа рассматривает контекст как первостепенную сущность, храня и повторно используя его через ускоритель BlueField-4 и подключённое хранилище Spectrum-X. Отделяя хранение контекста от памяти GPU при сохранении плотной связи через NVLink, платформа обеспечивает в 5 раз более высокую производительность инференса и в 5 раз — энергоэффективность для задач с тяжёлым контекстом. Это фундаментальный сдвиг архитектуры: узкое место инференса сместилось с вычислений на управление контекстом.

DGX SuperPOD с Vera Rubin служит образцом для готовых к запуску AI-фабрик. Объединяя восемь систем Vera Rubin NVL72 с вертикальным масштабированием через NVLink 6 и горизонтальным — через Spectrum-X Ethernet, SuperPOD демонстрирует, как совместное проектирование чипов приводит к снижению стоимости систем. По сравнению с предыдущим поколением Blackwell, обучение больших MoE-моделей требует всего 1/4 GPU, а стоимость инференса на токен — 1/10. Управляемый через программное обеспечение NVIDIA Mission Control, SuperPOD функционирует как единый инференсный движок, где планирование GPU, оркестрация сети и координация хранения происходят прозрачно.

Открытый Amplifier: от моделей к интегрированным агентам

Агрессивное расширение открытых моделей NVIDIA — 650 моделей и 250 датасетов, выпущенных только в 2025 году — отражает сложную стратегию: насыщать разработчиков мощными, свободно доступными инструментами и одновременно делать аппаратное обеспечение всё более незаменимым.

Компания интегрировала открытые модели и инструменты в «Blueprints» — SaaS-рамочную платформу, позволяющую создавать мульти-модельные, мульти-облачные агентские системы. Эти системы автоматически маршрутизируют запросы либо к локальным частным моделям, либо к облачным фронтир-моделям в зависимости от задачи, вызывают внешние API для использования инструментов и объединяют мультимодальные входы (текст, голос, изображения, датчики). Внедряя эту архитектуру в рабочие процессы разработчиков, NVIDIA гарантирует, что даже организации с ограниченным бюджетом, использующие открытые модели, в конечном итоге будут зависеть от инфраструктуры инференса Vera Rubin для производственных запусков.

Расширенная линейка Nemotron теперь включает агентские RAG-модели, варианты с повышенной безопасностью и модели речи — все, что решает узкие места в новой архитектуре Agentic AI. Разработчики могут донастраивать эти модели, генерировать синтетические данные через Cosmos и создавать приложения, которые два года назад казались невозможными.

Физический ИИ: где автономное вождение встречается с реальным рассуждением

NVIDIA позиционирует физический ИИ — интеллект, понимающий реальный мир, рассуждающий о неопределённости и выполняющий сложные действия — как следующий мног trillion-долларовый фронтир. В качестве основной площадки для испытаний выступают автономные автомобили.

Alpha-Mayo, открытая модель NVIDIA для уровня 4 автономного вождения, воплощает это видение. С 10 миллиардами параметров, Alpha-Mayo обеспечивает принятие решений на основе рассуждений, разбивая сложные сценарии вождения на шаги и выбирая наиболее безопасное действие. Вместо реактивных правилных систем модель понимает постоянство объектов, предсказывает поведение транспортных средств и справляется с ранее невиданными крайними случаями — например, неисправностью светофора на оживлённом перекрёстке.

Mercedes-Benz CLA, уже в производстве с интеграцией Alpha-Mayo, достигла высшего рейтинга безопасности NCAP. Платформа NVIDIA DRIVE, работающая на промышленном оборудовании, поддерживает управление без рук на шоссе и полную автономию в городских условиях — возможности, демонстрирующие готовность физического ИИ к масштабному внедрению. Framework Alpha-Sim, открытая платформа для оценки, и синтетические данные через Cosmos позволяют разработчикам по всему миру ускорить разработку автономных транспортных средств.

Помимо автомобильной отрасли, NVIDIA объявила о партнёрствах с Boston Dynamics, Franka Robotics, LG Electronics и другими, использующими платформы NVIDIA Isaac и GR00T. Совместная работа с Siemens интегрирует технологии NVIDIA в EDA, CAE и инструменты цифровых двойников, внедряя физический ИИ в проектирование, моделирование, производство и эксплуатацию.

Глубина обороны: системная инженерия как конкурентное преимущество

По мере того как рынок инфраструктуры ИИ переходит от модели обучения к экономике инференса, конкуренция платформ вышла за рамки простых метрик (GPU FLOPS) и охватывает системную инженерию — чипы, стойки, сети и программную оркестрацию.

Стратегия NVIDIA реализуется одновременно в двух направлениях. На фронте открытого исходного кода компания активно вносит модели, инструменты и датасеты, демократизируя развитие ИИ и расширяя общий адресуемый рынок инференса. На закрытом фронте, благодаря плотно интегрированной экосистеме Vera Rubin — с совместным проектированием чипов, пропускной способностью NVLink, сетевыми Spectrum-X, слоями хранения контекста и Mission Control — становится всё сложнее воспроизвести.

Эта замкнутая динамика мощна: расширяя экосистему открытого исходного кода, NVIDIA стимулирует более широкое внедрение ИИ и потребление токенов; предоставляя экономически эффективную инфраструктуру инференса, она захватывает растущие рабочие нагрузки; постоянно совершенствуя аппаратную архитектуру и возможности планирования GPU, NVIDIA обеспечивает, что альтернативные платформы с трудом смогут конкурировать по производительности, ваттам и стоимости за токен. Это создаёт самоподдерживающееся преимущество, превосходящее любой отдельный цикл продукта.

Анонс Vera Rubin — это не просто следующая генерация аппаратных решений для инференса, а подтверждение того, что ставка NVIDIA на интегрированные системы — где аппаратное ускорение, сетевые оркестрации и программная оптимизация сливаются — стала отраслевым каноном. От гиперскалеров, развёртывающих SuperPOD, до предприятий, создающих частных агентских ИИ на кластерах DGX — инфраструктурный ландшафт консолидируется вокруг видения NVIDIA.

Для разработчиков и операторов это очевидный вывод: эпоха вставки ускорителей в универсальные платформы окончательно завершилась. Будущее эффективного, масштабируемого инференса — на аппаратных системах, специально созданных для этой задачи.

ERA-1,25%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить