En CES 2026, Jensen Huang ofreció una conferencia magistral transformadora que subraya la visión de NVIDIA de apostar por la empresa: la transición de una era centrada únicamente en el entrenamiento de IA a una dominada por inferencia eficiente a gran escala e inteligencia incorporada. En 90 minutos, el CEO de NVIDIA reveló ocho anuncios principales, cada uno reforzando una estrategia singular: construir sistemas estrechamente integrados donde la programación de GPU acelerada por hardware y la computación en red se vuelvan inseparables. El mensaje fue claro: el futuro no pertenece a aceleradores aislados, sino a sistemas diseñados para un rendimiento rentable.
La Plataforma Vera Rubin: Un Enfoque de Seis Chips para el Diseño Acelerado de Sistemas
Vera Rubin representa una reconfiguración fundamental de la arquitectura de centros de datos. En lugar de acoplar aceleradores a una infraestructura genérica, NVIDIA co-diseñó seis chips complementarios—Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU y Spectrum-X CPO—cada uno optimizado para funcionar como un ecosistema cohesivo.
La Vera CPU, construida con núcleos Olympus personalizados, maneja el movimiento de datos y el procesamiento de agentes con conectividad NVLink a CPU de 1.8TB/s, gestionando eficazmente la coordinación que requiere la programación de GPU. La Rubin GPU introduce el motor Transformer y la capacidad de inferencia NVFP4 alcanzando 50 PFLOPS—5 veces el rendimiento de Blackwell—mientras soporta memoria HBM4 a 22TB/s de ancho de banda, 2.8 veces la generación anterior. Estas especificaciones importan no en aislamiento, sino porque resuelven un problema crítico: a medida que los modelos crecen y proliferan los tokens de inferencia, los enfoques tradicionales de programación de GPU se ven limitados por el ancho de banda de memoria y los costos de movimiento de datos.
Integrando todos los componentes en un sistema de un solo rack, Vera Rubin NVL72 ofrece 3.6 EFLOPS de rendimiento en inferencia con 2 billones de transistores. Más importante aún, la arquitectura del sistema permite la programación de GPU acelerada por hardware a una escala sin precedentes. El NVLink 6 Switch logra 3.6TB/s de ancho de banda de interconexión completo por GPU (2x generación anterior), con computación en red a 14.4 TFLOPS en precisión FP8. Esto no es simplemente más ancho de banda—es un ancho de banda diseñado para eliminar los cuellos de botella en la programación inherentes a las cargas de trabajo de inferencia distribuidas.
El sistema utiliza enfriamiento líquido al 100% y cuenta con una bandeja de cómputo modular y sin ventilador que reduce el tiempo de ensamblaje de dos horas a cinco minutos. El mantenimiento sin tiempo de inactividad mediante la bandeja NVLink Switch y el motor RAS de segunda generación garantizan que los clústeres de inferencia alcancen la disponibilidad que exigen los centros de datos. Más de 80 socios MGX ya están preparados para el despliegue de Vera Rubin.
Tres Innovaciones que Apuntan a la Frontera de la Eficiencia en Inferencia
Más allá de la base de hardware, NVIDIA lanzó tres productos específicamente diseñados para abordar los cuellos de botella en la inferencia: Spectrum-X Ethernet CPO, una Plataforma de Almacenamiento de Memoria de Contexto de Inferencia, y el DGX SuperPOD construido sobre Vera Rubin.
Spectrum-X Ethernet Co-Packaged Optics aplica un diseño de dos chips usando tecnología SerDes de 200Gbps, entregando 102.4Tb/s por ASIC. En comparación con las redes conmutadas tradicionales, la arquitectura CPO logra una eficiencia energética 5x superior, una fiabilidad 10x mejor y una disponibilidad de aplicaciones 5x mayor. Esto se traduce directamente en procesar más tokens de inferencia diariamente mientras se reduce el TCO del centro de datos—una ventaja competitiva crítica en la carrera por commoditizar la inferencia.
La Plataforma de Almacenamiento de Memoria de Contexto de Inferencia redefine cómo los sistemas manejan el almacenamiento de contexto para cargas de trabajo de IA de secuencia larga. A medida que los sistemas de IA Agentic manejan conversaciones de múltiples turnos, pipelines RAG y razonamiento complejo de múltiples pasos, las ventanas de contexto ahora alcanzan millones de tokens. En lugar de recalcular cachés clave-valor en cada paso de inferencia—desperdiciando capacidad de GPU y añadiendo latencia—la plataforma trata el contexto como un ciudadano de primera clase, almacenándolo y reutilizándolo a través de una capa de almacenamiento acelerada por BlueField-4 y conectada mediante Spectrum-X. Al desacoplar el almacenamiento de contexto de la memoria GPU, manteniendo un acoplamiento estrecho vía NVLink, la plataforma ofrece 5x en rendimiento de inferencia y 5x en eficiencia energética para cargas de trabajo con mucho contexto. Esto representa un cambio arquitectónico fundamental: el cuello de botella de la inferencia ha pasado de ser el cálculo bruto a la gestión del contexto.
El DGX SuperPOD con Vera Rubin sirve como el plano para fábricas de IA llave en mano. Combinando ocho sistemas Vera Rubin NVL72 con escalado vertical mediante NVLink 6 y escalado horizontal mediante Spectrum-X Ethernet, el SuperPOD demuestra cómo un diseño colaborativo a nivel de chips se traduce en reducciones de costos a nivel de sistema. En comparación con la generación Blackwell anterior, entrenar modelos MoE grandes requiere solo 1/4 del número de GPU, y los costos por token de inferencia caen a 1/10. Gestionado mediante el software NVIDIA Mission Control, el SuperPOD funciona como un motor de inferencia unificado donde la programación de GPU, la orquestación de red y la coordinación de almacenamiento ocurren de manera transparente.
El Amplificador de Código Abierto: De Modelos a Agentes Integrados
La expansión agresiva de NVIDIA en contribuciones de código abierto—650 modelos y 250 conjuntos de datos lanzados solo en 2025—refleja una estrategia sofisticada: saturar a los desarrolladores con herramientas potentes y gratuitas, mientras hacer que el hardware subyacente sea cada vez más indispensable.
La compañía ha integrado modelos y herramientas abiertas en “Blueprints”, un marco SaaS que permite sistemas multi-modelo y multi-nube con agentes. Estos sistemas enrutan automáticamente las consultas a modelos privados locales o a modelos de frontera en la nube según los requisitos de la tarea, llaman APIs externas para uso de herramientas y fusionan entradas multimodales (texto, voz, imágenes, datos de sensores). Al incorporar esta arquitectura en los flujos de trabajo de los desarrolladores, NVIDIA asegura que incluso las organizaciones conscientes del costo que construyen sobre modelos abiertos dependan en última instancia de la infraestructura de inferencia Vera Rubin para implementaciones en producción.
La familia Nemotron ampliada ahora incluye modelos RAG Agentic, variantes centradas en la seguridad y modelos de voz—cada uno abordando los cuellos de botella en la emergente pila de IA Agentic. Los desarrolladores pueden ajustar estos modelos, generar datos sintéticos mediante Cosmos y construir aplicaciones que hace solo dos años serían imposibles de desarrollar.
IA Física: Donde la Conducción Autónoma Encuentra el Razonamiento del Mundo Real
NVIDIA posiciona la IA física—inteligencia que comprende el mundo real, razona sobre la incertidumbre y ejecuta acciones complejas—como la próxima frontera de varios billones de dólares. Los vehículos autónomos emergen como el principal campo de prueba.
Alpha-Mayo, la suite de modelos de código abierto de NVIDIA para conducción autónoma de Nivel 4, encarna esta visión. Con 10 mil millones de parámetros, Alpha-Mayo permite decisiones basadas en razonamiento, desglosando escenarios complejos de conducción en pasos y seleccionando la acción más segura. En lugar de sistemas reactivos de reglas, el modelo comprende la permanencia de objetos, predice el comportamiento de vehículos y maneja casos límite nunca antes vistos—por ejemplo, una falla en un semáforo en una intersección concurrida.
El Mercedes-Benz CLA, ahora en producción con integración de Alpha-Mayo, alcanzó la calificación de seguridad más alta de NCAP. La plataforma NVIDIA DRIVE, que funciona con hardware de producción, soporta conducción manos libres en autopistas y autonomía urbana de extremo a extremo—capacidades que demuestran la preparación de la IA física para despliegues a escala. Alpha-Sim, un marco de evaluación de código abierto, y la generación de datos sintéticos mediante Cosmos permiten a desarrolladores en todo el mundo acelerar el desarrollo de vehículos autónomos.
Más allá del sector automotor, NVIDIA anunció alianzas con Boston Dynamics, Franka Robotics, LG Electronics y otros que trabajan sobre las plataformas NVIDIA Isaac y GR00T. Una colaboración con Siemens integra tecnologías de NVIDIA en herramientas EDA, CAE y gemelos digitales, incorporando la IA física en diseño, simulación, fabricación y operaciones.
La Muralla se Profundiza: La Ingeniería de Sistemas como Ventaja Competitiva
A medida que el mercado de infraestructura de IA pasa de un modelo centrado en entrenamiento a una economía basada en inferencia, la competencia en plataformas ha evolucionado de métricas de un solo eje (FLOPS de GPU) a una ingeniería de sistemas que cubre chips, racks, redes y orquestación de software de manera integral.
La estrategia de NVIDIA se ejecuta en dos frentes simultáneamente. En el frente de código abierto, la compañía contribuye agresivamente con modelos, herramientas y conjuntos de datos, democratizando el desarrollo de IA y expandiendo el mercado total direccionable para la inferencia. En el frente propietario, el ecosistema Vera Rubin, estrechamente integrado—con chips co-diseñados, ancho de banda NVLink, redes Spectrum-X, capas de almacenamiento de contexto y software Mission Control—se vuelve cada vez más difícil de replicar.
La dinámica de circuito cerrado es formidable: al expandir el ecosistema de código abierto, NVIDIA impulsa una adopción más amplia de IA y el consumo de tokens; al ofrecer infraestructura de inferencia rentable, la compañía captura las cargas de trabajo en escala que emergen; al innovar continuamente en arquitectura de hardware y capacidades de programación de GPU, NVIDIA asegura que plataformas alternativas tengan dificultades para igualar rendimiento por vatio y costo por token. Esto crea una ventaja auto-reforzada que trasciende cualquier ciclo de producto individual.
El anuncio de Vera Rubin no representa solo la próxima generación de hardware de inferencia, sino la validación de que la apuesta de NVIDIA por sistemas integrados—donde la aceleración hardware, la orquestación en red y la optimización de software convergen—se ha convertido en doctrina de la industria. Desde hyperscalers desplegando SuperPODs hasta empresas construyendo agentes de IA privados en clústeres DGX, el panorama de infraestructura se está consolidando en torno a la visión de NVIDIA.
Para desarrolladores y operadores, la implicación es sencilla: la era de acoplar aceleradores en plataformas genéricas ha terminado definitivamente. El futuro de la inferencia eficiente y escalable corre en sistemas acelerados por hardware diseñados específicamente para la tarea.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
La próxima era de la aceleración GPU: cómo Vera Rubin de NVIDIA redefine la programación de GPU acelerada por hardware
En CES 2026, Jensen Huang ofreció una conferencia magistral transformadora que subraya la visión de NVIDIA de apostar por la empresa: la transición de una era centrada únicamente en el entrenamiento de IA a una dominada por inferencia eficiente a gran escala e inteligencia incorporada. En 90 minutos, el CEO de NVIDIA reveló ocho anuncios principales, cada uno reforzando una estrategia singular: construir sistemas estrechamente integrados donde la programación de GPU acelerada por hardware y la computación en red se vuelvan inseparables. El mensaje fue claro: el futuro no pertenece a aceleradores aislados, sino a sistemas diseñados para un rendimiento rentable.
La Plataforma Vera Rubin: Un Enfoque de Seis Chips para el Diseño Acelerado de Sistemas
Vera Rubin representa una reconfiguración fundamental de la arquitectura de centros de datos. En lugar de acoplar aceleradores a una infraestructura genérica, NVIDIA co-diseñó seis chips complementarios—Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU y Spectrum-X CPO—cada uno optimizado para funcionar como un ecosistema cohesivo.
La Vera CPU, construida con núcleos Olympus personalizados, maneja el movimiento de datos y el procesamiento de agentes con conectividad NVLink a CPU de 1.8TB/s, gestionando eficazmente la coordinación que requiere la programación de GPU. La Rubin GPU introduce el motor Transformer y la capacidad de inferencia NVFP4 alcanzando 50 PFLOPS—5 veces el rendimiento de Blackwell—mientras soporta memoria HBM4 a 22TB/s de ancho de banda, 2.8 veces la generación anterior. Estas especificaciones importan no en aislamiento, sino porque resuelven un problema crítico: a medida que los modelos crecen y proliferan los tokens de inferencia, los enfoques tradicionales de programación de GPU se ven limitados por el ancho de banda de memoria y los costos de movimiento de datos.
Integrando todos los componentes en un sistema de un solo rack, Vera Rubin NVL72 ofrece 3.6 EFLOPS de rendimiento en inferencia con 2 billones de transistores. Más importante aún, la arquitectura del sistema permite la programación de GPU acelerada por hardware a una escala sin precedentes. El NVLink 6 Switch logra 3.6TB/s de ancho de banda de interconexión completo por GPU (2x generación anterior), con computación en red a 14.4 TFLOPS en precisión FP8. Esto no es simplemente más ancho de banda—es un ancho de banda diseñado para eliminar los cuellos de botella en la programación inherentes a las cargas de trabajo de inferencia distribuidas.
El sistema utiliza enfriamiento líquido al 100% y cuenta con una bandeja de cómputo modular y sin ventilador que reduce el tiempo de ensamblaje de dos horas a cinco minutos. El mantenimiento sin tiempo de inactividad mediante la bandeja NVLink Switch y el motor RAS de segunda generación garantizan que los clústeres de inferencia alcancen la disponibilidad que exigen los centros de datos. Más de 80 socios MGX ya están preparados para el despliegue de Vera Rubin.
Tres Innovaciones que Apuntan a la Frontera de la Eficiencia en Inferencia
Más allá de la base de hardware, NVIDIA lanzó tres productos específicamente diseñados para abordar los cuellos de botella en la inferencia: Spectrum-X Ethernet CPO, una Plataforma de Almacenamiento de Memoria de Contexto de Inferencia, y el DGX SuperPOD construido sobre Vera Rubin.
Spectrum-X Ethernet Co-Packaged Optics aplica un diseño de dos chips usando tecnología SerDes de 200Gbps, entregando 102.4Tb/s por ASIC. En comparación con las redes conmutadas tradicionales, la arquitectura CPO logra una eficiencia energética 5x superior, una fiabilidad 10x mejor y una disponibilidad de aplicaciones 5x mayor. Esto se traduce directamente en procesar más tokens de inferencia diariamente mientras se reduce el TCO del centro de datos—una ventaja competitiva crítica en la carrera por commoditizar la inferencia.
La Plataforma de Almacenamiento de Memoria de Contexto de Inferencia redefine cómo los sistemas manejan el almacenamiento de contexto para cargas de trabajo de IA de secuencia larga. A medida que los sistemas de IA Agentic manejan conversaciones de múltiples turnos, pipelines RAG y razonamiento complejo de múltiples pasos, las ventanas de contexto ahora alcanzan millones de tokens. En lugar de recalcular cachés clave-valor en cada paso de inferencia—desperdiciando capacidad de GPU y añadiendo latencia—la plataforma trata el contexto como un ciudadano de primera clase, almacenándolo y reutilizándolo a través de una capa de almacenamiento acelerada por BlueField-4 y conectada mediante Spectrum-X. Al desacoplar el almacenamiento de contexto de la memoria GPU, manteniendo un acoplamiento estrecho vía NVLink, la plataforma ofrece 5x en rendimiento de inferencia y 5x en eficiencia energética para cargas de trabajo con mucho contexto. Esto representa un cambio arquitectónico fundamental: el cuello de botella de la inferencia ha pasado de ser el cálculo bruto a la gestión del contexto.
El DGX SuperPOD con Vera Rubin sirve como el plano para fábricas de IA llave en mano. Combinando ocho sistemas Vera Rubin NVL72 con escalado vertical mediante NVLink 6 y escalado horizontal mediante Spectrum-X Ethernet, el SuperPOD demuestra cómo un diseño colaborativo a nivel de chips se traduce en reducciones de costos a nivel de sistema. En comparación con la generación Blackwell anterior, entrenar modelos MoE grandes requiere solo 1/4 del número de GPU, y los costos por token de inferencia caen a 1/10. Gestionado mediante el software NVIDIA Mission Control, el SuperPOD funciona como un motor de inferencia unificado donde la programación de GPU, la orquestación de red y la coordinación de almacenamiento ocurren de manera transparente.
El Amplificador de Código Abierto: De Modelos a Agentes Integrados
La expansión agresiva de NVIDIA en contribuciones de código abierto—650 modelos y 250 conjuntos de datos lanzados solo en 2025—refleja una estrategia sofisticada: saturar a los desarrolladores con herramientas potentes y gratuitas, mientras hacer que el hardware subyacente sea cada vez más indispensable.
La compañía ha integrado modelos y herramientas abiertas en “Blueprints”, un marco SaaS que permite sistemas multi-modelo y multi-nube con agentes. Estos sistemas enrutan automáticamente las consultas a modelos privados locales o a modelos de frontera en la nube según los requisitos de la tarea, llaman APIs externas para uso de herramientas y fusionan entradas multimodales (texto, voz, imágenes, datos de sensores). Al incorporar esta arquitectura en los flujos de trabajo de los desarrolladores, NVIDIA asegura que incluso las organizaciones conscientes del costo que construyen sobre modelos abiertos dependan en última instancia de la infraestructura de inferencia Vera Rubin para implementaciones en producción.
La familia Nemotron ampliada ahora incluye modelos RAG Agentic, variantes centradas en la seguridad y modelos de voz—cada uno abordando los cuellos de botella en la emergente pila de IA Agentic. Los desarrolladores pueden ajustar estos modelos, generar datos sintéticos mediante Cosmos y construir aplicaciones que hace solo dos años serían imposibles de desarrollar.
IA Física: Donde la Conducción Autónoma Encuentra el Razonamiento del Mundo Real
NVIDIA posiciona la IA física—inteligencia que comprende el mundo real, razona sobre la incertidumbre y ejecuta acciones complejas—como la próxima frontera de varios billones de dólares. Los vehículos autónomos emergen como el principal campo de prueba.
Alpha-Mayo, la suite de modelos de código abierto de NVIDIA para conducción autónoma de Nivel 4, encarna esta visión. Con 10 mil millones de parámetros, Alpha-Mayo permite decisiones basadas en razonamiento, desglosando escenarios complejos de conducción en pasos y seleccionando la acción más segura. En lugar de sistemas reactivos de reglas, el modelo comprende la permanencia de objetos, predice el comportamiento de vehículos y maneja casos límite nunca antes vistos—por ejemplo, una falla en un semáforo en una intersección concurrida.
El Mercedes-Benz CLA, ahora en producción con integración de Alpha-Mayo, alcanzó la calificación de seguridad más alta de NCAP. La plataforma NVIDIA DRIVE, que funciona con hardware de producción, soporta conducción manos libres en autopistas y autonomía urbana de extremo a extremo—capacidades que demuestran la preparación de la IA física para despliegues a escala. Alpha-Sim, un marco de evaluación de código abierto, y la generación de datos sintéticos mediante Cosmos permiten a desarrolladores en todo el mundo acelerar el desarrollo de vehículos autónomos.
Más allá del sector automotor, NVIDIA anunció alianzas con Boston Dynamics, Franka Robotics, LG Electronics y otros que trabajan sobre las plataformas NVIDIA Isaac y GR00T. Una colaboración con Siemens integra tecnologías de NVIDIA en herramientas EDA, CAE y gemelos digitales, incorporando la IA física en diseño, simulación, fabricación y operaciones.
La Muralla se Profundiza: La Ingeniería de Sistemas como Ventaja Competitiva
A medida que el mercado de infraestructura de IA pasa de un modelo centrado en entrenamiento a una economía basada en inferencia, la competencia en plataformas ha evolucionado de métricas de un solo eje (FLOPS de GPU) a una ingeniería de sistemas que cubre chips, racks, redes y orquestación de software de manera integral.
La estrategia de NVIDIA se ejecuta en dos frentes simultáneamente. En el frente de código abierto, la compañía contribuye agresivamente con modelos, herramientas y conjuntos de datos, democratizando el desarrollo de IA y expandiendo el mercado total direccionable para la inferencia. En el frente propietario, el ecosistema Vera Rubin, estrechamente integrado—con chips co-diseñados, ancho de banda NVLink, redes Spectrum-X, capas de almacenamiento de contexto y software Mission Control—se vuelve cada vez más difícil de replicar.
La dinámica de circuito cerrado es formidable: al expandir el ecosistema de código abierto, NVIDIA impulsa una adopción más amplia de IA y el consumo de tokens; al ofrecer infraestructura de inferencia rentable, la compañía captura las cargas de trabajo en escala que emergen; al innovar continuamente en arquitectura de hardware y capacidades de programación de GPU, NVIDIA asegura que plataformas alternativas tengan dificultades para igualar rendimiento por vatio y costo por token. Esto crea una ventaja auto-reforzada que trasciende cualquier ciclo de producto individual.
El anuncio de Vera Rubin no representa solo la próxima generación de hardware de inferencia, sino la validación de que la apuesta de NVIDIA por sistemas integrados—donde la aceleración hardware, la orquestación en red y la optimización de software convergen—se ha convertido en doctrina de la industria. Desde hyperscalers desplegando SuperPODs hasta empresas construyendo agentes de IA privados en clústeres DGX, el panorama de infraestructura se está consolidando en torno a la visión de NVIDIA.
Para desarrolladores y operadores, la implicación es sencilla: la era de acoplar aceleradores en plataformas genéricas ha terminado definitivamente. El futuro de la inferencia eficiente y escalable corre en sistemas acelerados por hardware diseñados específicamente para la tarea.