El 5 de enero en CES 2026, el CEO de NVIDIA Jensen Huang comandó el escenario con su característica chaqueta de cuero durante 1,5 horas, condensando la visión más ambiciosa de la compañía para la era de la IA en una única presentación de alto impacto. Surgieron ocho anuncios principales en este breve lapso, redefiniendo el panorama competitivo desde el entrenamiento de modelos de IA hacia lo que NVIDIA considera la próxima frontera: inferencia rentable a escala e IA física integrada en el mundo real.
El subtexto detrás de estos anuncios refleja un cambio fundamental en el mercado. A medida que el tamaño de los modelos crece 10x anualmente y los conteos de tokens de inferencia se expanden 5x cada año—mientras que los costos por token caen 10x—la industria de la computación enfrenta una nueva restricción: la inferencia se ha convertido en el cuello de botella, no el entrenamiento. Toda la arquitectura Vera Rubin de NVIDIA, anunciada 1.5 horas antes, está diseñada en torno a esta realidad.
Seis chips personalizados en un solo rack: La supercomputadora de IA Vera Rubin reinventa densidad y rendimiento
En el núcleo del hardware se encuentra el NVIDIA Vera Rubin POD, una supercomputadora de IA construida con propósito que integra seis chips propietarios diseñados para trabajar en sincronía. Esta filosofía de co-diseño marca un cambio respecto al enfoque modular que definió generaciones anteriores. El sistema insignia, Vera Rubin NVL72, alberga 2 billones de transistores en un solo rack, entregando 3.6 EFLOPS de rendimiento de inferencia NVFP4—un salto de cinco veces respecto a la generación Blackwell anterior.
La arquitectura se desglosa así:
Vera CPU: Construida en torno a 88 núcleos Olympus personalizados con 176 hilos de la tecnología de Multihilo Espacial de NVIDIA. Soporta 1.8TB/s de ancho de banda NVLink-C2C, permitiendo memoria unificada CPU-GPU sin fisuras. La memoria del sistema escala hasta 1.5TB—el triple que la CPU Grace—con un ancho de banda de 1.2TB/s LPDDR5X. La CPU duplica el rendimiento en procesamiento de datos e introduce computación confidencial a nivel de rack, el primer TEE real que abarca dominios tanto de CPU como de GPU.
Rubin GPU: La pieza central introduce un motor Transformer que habilita inferencia NVFP4 a 50 PFLOPS (5x Blackwell) y entrenamiento NVFP4 a 35 PFLOPS (3.5x Blackwell). Soporta memoria HBM4 con 22TB/s de ancho de banda—2.8x respecto a la generación previa—crítico para manejar modelos masivos de Mezcla de Expertos (MoE). La compatibilidad hacia atrás asegura migraciones suaves desde despliegues Blackwell existentes.
Conmutador NVLink 6: La velocidad por carril salta a 400Gbps, logrando un ancho de banda total de interconexión de 3.6TB/s por GPU (2x generación anterior). El ancho de banda total entre conmutadores alcanza 28.8TB/s, con computación en red que entrega 14.4 TFLOPS en FP8. El sistema funciona con enfriamiento líquido al 100%, eliminando restricciones térmicas.
ConnectX-9 SuperNIC: Proporciona 1.6Tb/s de ancho de banda por GPU, completamente programable y definido por software para cargas de trabajo de IA a gran escala.
BlueField-4 DPU: Una NIC inteligente de 800Gbps equipada con un CPU Grace de 64 núcleos y ConnectX-9. Descarga tareas de red y almacenamiento, además de mejorar la seguridad—entregando 6x el rendimiento de cómputo y 3x el ancho de banda de memoria respecto a la generación anterior, con acceso GPU a almacenamiento 2x más rápido.
Spectrum-X 102.4T CPO: Un switch óptico empaquetado usando tecnología SerDes de 200Gbps, que proporciona 102.4Tb/s por ASIC. La configuración de alta densidad de 512 puertos (800Gb/s por puerto) permite que todo el sistema opere como una entidad unificada en lugar de componentes aislados.
El tiempo de ensamblaje se ha reducido de dos horas a cinco minutos, mientras que las ventanas de mantenimiento se han eliminado mediante arquitectura de conmutador NVLink sin tiempo de inactividad. El diseño modular del sistema, ahora sin cables y sin ventiladores a nivel de bandeja de cómputo, lo hace 18 veces más rápido de mantener que las generaciones anteriores. Estas mejoras operativas se traducen directamente en una reducción del TCO del centro de datos y en una mayor disponibilidad.
Tres plataformas especializadas abordan la verdadera restricción de la inferencia de IA: almacenamiento de contexto y rendimiento
Mientras que el poder de cómputo bruto mejora 5x, la inferencia presenta un problema diferente—uno que los ciclos brutos de GPU no pueden resolver por sí solos. NVIDIA introdujo tres productos integrados para abordar esta brecha, cada uno dirigido a un cuello de botella específico en el mundo escalado por inferencia.
Spectrum-X: Opticas empaquetadas en Ethernet como infraestructura crítica
El switching de red tradicional consume una cantidad enorme de energía e introduce latencia que socava el rendimiento de inferencia. El Spectrum-X Ethernet CPO, basado en la arquitectura Spectrum-X con un diseño de dos chips, logra 5x de eficiencia energética, 10x de fiabilidad y 5x de tiempo de actividad de la aplicación. El sistema de 512 puertos opera a 800Gb/s por puerto, escalando a una capacidad total de 102.4Tb/s.
Las implicaciones son directas: más tokens procesados por día se traducen en menor costo por token, reduciendo en última instancia el TCO del centro de datos en un factor que NVIDIA considera transformador para operadores de escala hyperscale.
Plataforma de almacenamiento de memoria de contexto para inferencia: haciendo prácticos los cachés KV a escala
Las cargas de trabajo de inferencia para sistemas de IA agentic—diálogo multi-turno, Generación Mejorada por Recuperación (RAG) y razonamiento en múltiples pasos—exigen almacenamiento persistente de contexto. Los sistemas actuales enfrentan una paradoja: la memoria GPU es rápida pero escasa; el almacenamiento en red es abundante pero demasiado lento para acceso a corto plazo. La Plataforma de almacenamiento de memoria de contexto de inferencia de NVIDIA cierra esta brecha al tratar el contexto como un tipo de dato de primera clase dentro de la infraestructura.
Acelerada por BlueField-4 y Spectrum-X, esta nueva capa de almacenamiento se conecta a clústeres de GPU mediante interconexiones NVLink especializadas. En lugar de recomputar cachés clave-valor en cada paso de inferencia, el sistema los mantiene en almacenamiento optimizado, logrando 5x mejor rendimiento de inferencia y 5x de eficiencia energética en cargas de trabajo con mucho contexto. Para sistemas de IA que evolucionan de chatbots sin estado a agentes con estado que razonan a través de millones de tokens, esta adición arquitectónica elimina un cuello de botella fundamental en la escalabilidad.
NVIDIA colabora con socios de almacenamiento para integrar esta plataforma directamente en despliegues basados en Rubin, posicionándola como un elemento central de infraestructura de IA llave en mano en lugar de un complemento.
DGX SuperPOD (Vera Rubin Edition): La plantilla de fábrica para inferencia de costo óptimo
El DGX SuperPOD funciona como la arquitectura de referencia de NVIDIA para despliegues de inferencia de IA a gran escala. Construido con ocho sistemas DGX Vera Rubin NVL72, aprovecha NVLink 6 para extensión vertical de red, Spectrum-X Ethernet para escalado horizontal y la Plataforma de almacenamiento de memoria de contexto de inferencia para orquestación de contexto. Todo el conjunto se gestiona mediante el software NVIDIA Mission Control.
El resultado: en comparación con la infraestructura de la era Blackwell, entrenar modelos MoE de escala equivalente requiere 1/4 del número de GPU, y los costos por token para inferencia MoE a gran escala caen a 1/10. Para proveedores de nube y empresas, esto representa una palanca económica masiva—la misma carga de trabajo se procesa con muchas menos GPUs, generando ahorros en infraestructura por miles de millones a escala.
Nemotron, Blueprints y la aceleración de código abierto: construyendo sistemas de IA multi-modelo y multi-nube
Coincidiendo con los anuncios de hardware, NVIDIA anunció su mayor expansión de código abierto hasta la fecha. En 2025, la compañía contribuyó con 650 modelos de código abierto y 250 conjuntos de datos a Hugging Face, convirtiéndose en el mayor contribuyente individual a la plataforma. Las métricas principales muestran que el uso de modelos de código abierto ha crecido 20 veces en el último año, representando aproximadamente el 25% de todos los tokens de inferencia.
La compañía está ampliando la familia Nemotron con nuevos modelos: sistemas RAG agentic, modelos de seguridad especializados y modelos de voz diseñados para aplicaciones multimodales de IA. De manera crítica, NVIDIA distribuye estos no como modelos aislados, sino como componentes dentro de un marco más amplio llamado Blueprints.
Blueprints encarna una clave de la arquitectura que Jensen Huang extrajo al observar la Perplejidad y las plataformas de IA en etapa inicial: la IA agentic de nivel producción es inherentemente multi-modelo, multi-nube y de nube híbrida por naturaleza. El marco permite a los desarrolladores:
Encauzar tareas de forma dinámica: modelos privados locales para cargas sensibles a la latencia, modelos de frontera en la nube para capacidades de vanguardia
Llamar APIs y herramientas externas sin fisuras (email systems, interfaces de control de robots, servicios de calendario)
Fusionar entradas multimodales—texto, voz, imágenes, datos de sensores de robots—en representaciones unificadas
Estas capacidades, que antes eran ciencia ficción, ahora están al alcance de los desarrolladores mediante la integración SaaS de NVIDIA con Blueprints. Implementaciones similares aparecen en plataformas empresariales como ServiceNow y Snowflake, señalando un cambio hacia un pensamiento a nivel de sistemas en la IA empresarial.
La implicación estratégica: NVIDIA está democratizando simultáneamente el acceso a capacidades de frontera en IA mientras afianza sus ecosistemas de software como el estándar de facto para la construcción de agentes de IA.
IA física: del simulacro a la realidad—Alpha-Mayo y el punto de inflexión en robótica
Tras infraestructura y modelos abiertos, Huang pivotó hacia lo que calificó como la frontera definitoria: IA física—sistemas que perciben el mundo físico, razonan sobre él y generan acciones directamente. La transición refleja las épocas previas de la IA: IA perceptual, IA generativa, IA agentic. La IA física representa la etapa en la que la inteligencia entra en sistemas encarnados.
Huang delineó una arquitectura de tres computadoras para el desarrollo de IA física:
Computadoras de entrenamiento (DGX): construir modelos fundamentales
Computadoras de inferencia (chips integrados en robots/vehículos): ejecutar decisiones en tiempo real
Computadoras de simulación (Omniverse): generar datos sintéticos y validar el razonamiento físico
El modelo fundamental que sustenta esta pila es Cosmos World Foundation Model, que alinea lenguaje, imágenes, geometría 3D y leyes físicas para soportar toda la cadena desde simulación hasta despliegue en vivo.
Alpha-Mayo: conducción autónoma como punta de lanza
La conducción autónoma representa la primera ventana de despliegue a gran escala para la IA física. NVIDIA lanzó Alpha-Mayo, un sistema completo compuesto por modelos de código abierto, herramientas de simulación y conjuntos de datos para el desarrollo de conducción autónoma nivel 4.
Alpha-Mayo opera con un paradigma basado en razonamiento en lugar de comportamiento aprendido puro de extremo a extremo. El modelo de 10 mil millones de parámetros descompone problemas en pasos discretos, razona sobre posibilidades y selecciona la trayectoria más segura. Esta arquitectura permite a los vehículos manejar casos límite sin precedentes—como fallos en semáforos en intersecciones concurridas—aplicando razonamiento aprendido en lugar de patrones memorizados.
En despliegues reales, el sistema acepta indicaciones en texto, feeds de cámaras de vista envolvente, historial del estado del vehículo y entradas de navegación, produciendo tanto una trayectoria de conducción como una explicación en lenguaje natural del razonamiento. Esta transparencia es clave para la certificación regulatoria y la confianza del pasajero.
Mercedes-Benz CLA: NVIDIA confirmó que el nuevo Mercedes-Benz CLA, potenciado por Alpha-Mayo, ya está en producción y recientemente obtuvo la calificación de seguridad más alta del NCAP (Nuevo Programa de Evaluación de Autos). El vehículo ofrece conducción en autopista sin manos y navegación urbana autónoma de extremo a extremo, con capacidades mejoradas que llegarán al mercado estadounidense a finales de 2026. Cada línea de código, chip y componente del sistema ha pasado por certificación de seguridad formal.
NVIDIA también lanzó:
Un subconjunto de conjuntos de datos utilizados para entrenar Alpha-Mayo para ajuste fino por investigadores
Alpha-Sim, un marco de simulación de código abierto para evaluar el rendimiento de Alpha-Mayo
Herramientas que permiten a los desarrolladores combinar datos reales y sintéticos para aplicaciones personalizadas de conducción autónoma
Alianzas en robótica e integración industrial
Más allá del transporte, NVIDIA anunció colaboraciones amplias en robótica. Empresas líderes—Boston Dynamics, Franka Robotics, Surgical, LG Electronics, NEURA, XRLabs y Logic Robotics—están construyendo sistemas sobre la plataforma de simulación y desarrollo Isaac ( y el modelo base para robótica GR00T ).
Además, NVIDIA reveló una asociación estratégica con Siemens. La colaboración integra las bibliotecas CUDA-X, modelos de IA y gemelos digitales de Omniverse en las herramientas EDA, CAE y de gemelos digitales de Siemens. Esto posiciona a la IA física en todo el ciclo de vida, desde el diseño y la simulación hasta la fabricación y despliegue en el mundo real.
La estrategia: velocidad de código abierto frente a bloqueo de hardware
El discurso principal de 1.5 horas cristalizó la estrategia dual de NVIDIA de cara a la era de la inferencia. Por un lado, la compañía está abiertamente liberando modelos, conjuntos de datos y herramientas de desarrollo. Por otro, hace que su hardware, interconexiones y diseños de sistemas sean cada vez más irremplazables mediante una profunda co-optimización.
Esto crea un ciclo virtuoso:
Los modelos y herramientas de código abierto aceleran la adopción
La adopción más amplia impulsa la demanda de escala en inferencia
La escala en inferencia requiere hardware especializado de NVIDIA para lograr rendimiento rentable
A medida que los volúmenes de tokens crecen, los clientes quedan bloqueados en la infraestructura de NVIDIA
El enfoque de diseño a nivel de sistema—desde las interconexiones NVLink 6 hasta la Plataforma de almacenamiento de memoria de contexto de inferencia—dificulta que los competidores repliquen la ventaja en costo total de propiedad de NVIDIA. Lo que parece una “apertura” mediante Nemotron y Blueprints en realidad refuerza la brecha competitiva, haciendo de su plataforma la opción obvia para desarrolladores de IA que buscan tanto flexibilidad como rendimiento.
A medida que la industria de IA transita de cargas de trabajo dominadas por entrenamiento a las dominadas por inferencia, esta estrategia de ciclo cerrado de expansión continua de demanda, reducción de costo por token y bloqueo de infraestructura amplía la brecha económica de NVIDIA a niveles que podrían ser insuperables para competidores que intenten ganar tracción en las eras de inferencia y IA física.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Jensen Huang realizó ocho anuncios importantes en solo 1,5 horas, trazando el camino de NVIDIA hacia el dominio en inferencia y robótica
El 5 de enero en CES 2026, el CEO de NVIDIA Jensen Huang comandó el escenario con su característica chaqueta de cuero durante 1,5 horas, condensando la visión más ambiciosa de la compañía para la era de la IA en una única presentación de alto impacto. Surgieron ocho anuncios principales en este breve lapso, redefiniendo el panorama competitivo desde el entrenamiento de modelos de IA hacia lo que NVIDIA considera la próxima frontera: inferencia rentable a escala e IA física integrada en el mundo real.
El subtexto detrás de estos anuncios refleja un cambio fundamental en el mercado. A medida que el tamaño de los modelos crece 10x anualmente y los conteos de tokens de inferencia se expanden 5x cada año—mientras que los costos por token caen 10x—la industria de la computación enfrenta una nueva restricción: la inferencia se ha convertido en el cuello de botella, no el entrenamiento. Toda la arquitectura Vera Rubin de NVIDIA, anunciada 1.5 horas antes, está diseñada en torno a esta realidad.
Seis chips personalizados en un solo rack: La supercomputadora de IA Vera Rubin reinventa densidad y rendimiento
En el núcleo del hardware se encuentra el NVIDIA Vera Rubin POD, una supercomputadora de IA construida con propósito que integra seis chips propietarios diseñados para trabajar en sincronía. Esta filosofía de co-diseño marca un cambio respecto al enfoque modular que definió generaciones anteriores. El sistema insignia, Vera Rubin NVL72, alberga 2 billones de transistores en un solo rack, entregando 3.6 EFLOPS de rendimiento de inferencia NVFP4—un salto de cinco veces respecto a la generación Blackwell anterior.
La arquitectura se desglosa así:
Vera CPU: Construida en torno a 88 núcleos Olympus personalizados con 176 hilos de la tecnología de Multihilo Espacial de NVIDIA. Soporta 1.8TB/s de ancho de banda NVLink-C2C, permitiendo memoria unificada CPU-GPU sin fisuras. La memoria del sistema escala hasta 1.5TB—el triple que la CPU Grace—con un ancho de banda de 1.2TB/s LPDDR5X. La CPU duplica el rendimiento en procesamiento de datos e introduce computación confidencial a nivel de rack, el primer TEE real que abarca dominios tanto de CPU como de GPU.
Rubin GPU: La pieza central introduce un motor Transformer que habilita inferencia NVFP4 a 50 PFLOPS (5x Blackwell) y entrenamiento NVFP4 a 35 PFLOPS (3.5x Blackwell). Soporta memoria HBM4 con 22TB/s de ancho de banda—2.8x respecto a la generación previa—crítico para manejar modelos masivos de Mezcla de Expertos (MoE). La compatibilidad hacia atrás asegura migraciones suaves desde despliegues Blackwell existentes.
Conmutador NVLink 6: La velocidad por carril salta a 400Gbps, logrando un ancho de banda total de interconexión de 3.6TB/s por GPU (2x generación anterior). El ancho de banda total entre conmutadores alcanza 28.8TB/s, con computación en red que entrega 14.4 TFLOPS en FP8. El sistema funciona con enfriamiento líquido al 100%, eliminando restricciones térmicas.
ConnectX-9 SuperNIC: Proporciona 1.6Tb/s de ancho de banda por GPU, completamente programable y definido por software para cargas de trabajo de IA a gran escala.
BlueField-4 DPU: Una NIC inteligente de 800Gbps equipada con un CPU Grace de 64 núcleos y ConnectX-9. Descarga tareas de red y almacenamiento, además de mejorar la seguridad—entregando 6x el rendimiento de cómputo y 3x el ancho de banda de memoria respecto a la generación anterior, con acceso GPU a almacenamiento 2x más rápido.
Spectrum-X 102.4T CPO: Un switch óptico empaquetado usando tecnología SerDes de 200Gbps, que proporciona 102.4Tb/s por ASIC. La configuración de alta densidad de 512 puertos (800Gb/s por puerto) permite que todo el sistema opere como una entidad unificada en lugar de componentes aislados.
El tiempo de ensamblaje se ha reducido de dos horas a cinco minutos, mientras que las ventanas de mantenimiento se han eliminado mediante arquitectura de conmutador NVLink sin tiempo de inactividad. El diseño modular del sistema, ahora sin cables y sin ventiladores a nivel de bandeja de cómputo, lo hace 18 veces más rápido de mantener que las generaciones anteriores. Estas mejoras operativas se traducen directamente en una reducción del TCO del centro de datos y en una mayor disponibilidad.
Tres plataformas especializadas abordan la verdadera restricción de la inferencia de IA: almacenamiento de contexto y rendimiento
Mientras que el poder de cómputo bruto mejora 5x, la inferencia presenta un problema diferente—uno que los ciclos brutos de GPU no pueden resolver por sí solos. NVIDIA introdujo tres productos integrados para abordar esta brecha, cada uno dirigido a un cuello de botella específico en el mundo escalado por inferencia.
Spectrum-X: Opticas empaquetadas en Ethernet como infraestructura crítica
El switching de red tradicional consume una cantidad enorme de energía e introduce latencia que socava el rendimiento de inferencia. El Spectrum-X Ethernet CPO, basado en la arquitectura Spectrum-X con un diseño de dos chips, logra 5x de eficiencia energética, 10x de fiabilidad y 5x de tiempo de actividad de la aplicación. El sistema de 512 puertos opera a 800Gb/s por puerto, escalando a una capacidad total de 102.4Tb/s.
Las implicaciones son directas: más tokens procesados por día se traducen en menor costo por token, reduciendo en última instancia el TCO del centro de datos en un factor que NVIDIA considera transformador para operadores de escala hyperscale.
Plataforma de almacenamiento de memoria de contexto para inferencia: haciendo prácticos los cachés KV a escala
Las cargas de trabajo de inferencia para sistemas de IA agentic—diálogo multi-turno, Generación Mejorada por Recuperación (RAG) y razonamiento en múltiples pasos—exigen almacenamiento persistente de contexto. Los sistemas actuales enfrentan una paradoja: la memoria GPU es rápida pero escasa; el almacenamiento en red es abundante pero demasiado lento para acceso a corto plazo. La Plataforma de almacenamiento de memoria de contexto de inferencia de NVIDIA cierra esta brecha al tratar el contexto como un tipo de dato de primera clase dentro de la infraestructura.
Acelerada por BlueField-4 y Spectrum-X, esta nueva capa de almacenamiento se conecta a clústeres de GPU mediante interconexiones NVLink especializadas. En lugar de recomputar cachés clave-valor en cada paso de inferencia, el sistema los mantiene en almacenamiento optimizado, logrando 5x mejor rendimiento de inferencia y 5x de eficiencia energética en cargas de trabajo con mucho contexto. Para sistemas de IA que evolucionan de chatbots sin estado a agentes con estado que razonan a través de millones de tokens, esta adición arquitectónica elimina un cuello de botella fundamental en la escalabilidad.
NVIDIA colabora con socios de almacenamiento para integrar esta plataforma directamente en despliegues basados en Rubin, posicionándola como un elemento central de infraestructura de IA llave en mano en lugar de un complemento.
DGX SuperPOD (Vera Rubin Edition): La plantilla de fábrica para inferencia de costo óptimo
El DGX SuperPOD funciona como la arquitectura de referencia de NVIDIA para despliegues de inferencia de IA a gran escala. Construido con ocho sistemas DGX Vera Rubin NVL72, aprovecha NVLink 6 para extensión vertical de red, Spectrum-X Ethernet para escalado horizontal y la Plataforma de almacenamiento de memoria de contexto de inferencia para orquestación de contexto. Todo el conjunto se gestiona mediante el software NVIDIA Mission Control.
El resultado: en comparación con la infraestructura de la era Blackwell, entrenar modelos MoE de escala equivalente requiere 1/4 del número de GPU, y los costos por token para inferencia MoE a gran escala caen a 1/10. Para proveedores de nube y empresas, esto representa una palanca económica masiva—la misma carga de trabajo se procesa con muchas menos GPUs, generando ahorros en infraestructura por miles de millones a escala.
Nemotron, Blueprints y la aceleración de código abierto: construyendo sistemas de IA multi-modelo y multi-nube
Coincidiendo con los anuncios de hardware, NVIDIA anunció su mayor expansión de código abierto hasta la fecha. En 2025, la compañía contribuyó con 650 modelos de código abierto y 250 conjuntos de datos a Hugging Face, convirtiéndose en el mayor contribuyente individual a la plataforma. Las métricas principales muestran que el uso de modelos de código abierto ha crecido 20 veces en el último año, representando aproximadamente el 25% de todos los tokens de inferencia.
La compañía está ampliando la familia Nemotron con nuevos modelos: sistemas RAG agentic, modelos de seguridad especializados y modelos de voz diseñados para aplicaciones multimodales de IA. De manera crítica, NVIDIA distribuye estos no como modelos aislados, sino como componentes dentro de un marco más amplio llamado Blueprints.
Blueprints encarna una clave de la arquitectura que Jensen Huang extrajo al observar la Perplejidad y las plataformas de IA en etapa inicial: la IA agentic de nivel producción es inherentemente multi-modelo, multi-nube y de nube híbrida por naturaleza. El marco permite a los desarrolladores:
Estas capacidades, que antes eran ciencia ficción, ahora están al alcance de los desarrolladores mediante la integración SaaS de NVIDIA con Blueprints. Implementaciones similares aparecen en plataformas empresariales como ServiceNow y Snowflake, señalando un cambio hacia un pensamiento a nivel de sistemas en la IA empresarial.
La implicación estratégica: NVIDIA está democratizando simultáneamente el acceso a capacidades de frontera en IA mientras afianza sus ecosistemas de software como el estándar de facto para la construcción de agentes de IA.
IA física: del simulacro a la realidad—Alpha-Mayo y el punto de inflexión en robótica
Tras infraestructura y modelos abiertos, Huang pivotó hacia lo que calificó como la frontera definitoria: IA física—sistemas que perciben el mundo físico, razonan sobre él y generan acciones directamente. La transición refleja las épocas previas de la IA: IA perceptual, IA generativa, IA agentic. La IA física representa la etapa en la que la inteligencia entra en sistemas encarnados.
Huang delineó una arquitectura de tres computadoras para el desarrollo de IA física:
El modelo fundamental que sustenta esta pila es Cosmos World Foundation Model, que alinea lenguaje, imágenes, geometría 3D y leyes físicas para soportar toda la cadena desde simulación hasta despliegue en vivo.
Alpha-Mayo: conducción autónoma como punta de lanza
La conducción autónoma representa la primera ventana de despliegue a gran escala para la IA física. NVIDIA lanzó Alpha-Mayo, un sistema completo compuesto por modelos de código abierto, herramientas de simulación y conjuntos de datos para el desarrollo de conducción autónoma nivel 4.
Alpha-Mayo opera con un paradigma basado en razonamiento en lugar de comportamiento aprendido puro de extremo a extremo. El modelo de 10 mil millones de parámetros descompone problemas en pasos discretos, razona sobre posibilidades y selecciona la trayectoria más segura. Esta arquitectura permite a los vehículos manejar casos límite sin precedentes—como fallos en semáforos en intersecciones concurridas—aplicando razonamiento aprendido en lugar de patrones memorizados.
En despliegues reales, el sistema acepta indicaciones en texto, feeds de cámaras de vista envolvente, historial del estado del vehículo y entradas de navegación, produciendo tanto una trayectoria de conducción como una explicación en lenguaje natural del razonamiento. Esta transparencia es clave para la certificación regulatoria y la confianza del pasajero.
Mercedes-Benz CLA: NVIDIA confirmó que el nuevo Mercedes-Benz CLA, potenciado por Alpha-Mayo, ya está en producción y recientemente obtuvo la calificación de seguridad más alta del NCAP (Nuevo Programa de Evaluación de Autos). El vehículo ofrece conducción en autopista sin manos y navegación urbana autónoma de extremo a extremo, con capacidades mejoradas que llegarán al mercado estadounidense a finales de 2026. Cada línea de código, chip y componente del sistema ha pasado por certificación de seguridad formal.
NVIDIA también lanzó:
Alianzas en robótica e integración industrial
Más allá del transporte, NVIDIA anunció colaboraciones amplias en robótica. Empresas líderes—Boston Dynamics, Franka Robotics, Surgical, LG Electronics, NEURA, XRLabs y Logic Robotics—están construyendo sistemas sobre la plataforma de simulación y desarrollo Isaac ( y el modelo base para robótica GR00T ).
Además, NVIDIA reveló una asociación estratégica con Siemens. La colaboración integra las bibliotecas CUDA-X, modelos de IA y gemelos digitales de Omniverse en las herramientas EDA, CAE y de gemelos digitales de Siemens. Esto posiciona a la IA física en todo el ciclo de vida, desde el diseño y la simulación hasta la fabricación y despliegue en el mundo real.
La estrategia: velocidad de código abierto frente a bloqueo de hardware
El discurso principal de 1.5 horas cristalizó la estrategia dual de NVIDIA de cara a la era de la inferencia. Por un lado, la compañía está abiertamente liberando modelos, conjuntos de datos y herramientas de desarrollo. Por otro, hace que su hardware, interconexiones y diseños de sistemas sean cada vez más irremplazables mediante una profunda co-optimización.
Esto crea un ciclo virtuoso:
El enfoque de diseño a nivel de sistema—desde las interconexiones NVLink 6 hasta la Plataforma de almacenamiento de memoria de contexto de inferencia—dificulta que los competidores repliquen la ventaja en costo total de propiedad de NVIDIA. Lo que parece una “apertura” mediante Nemotron y Blueprints en realidad refuerza la brecha competitiva, haciendo de su plataforma la opción obvia para desarrolladores de IA que buscan tanto flexibilidad como rendimiento.
A medida que la industria de IA transita de cargas de trabajo dominadas por entrenamiento a las dominadas por inferencia, esta estrategia de ciclo cerrado de expansión continua de demanda, reducción de costo por token y bloqueo de infraestructura amplía la brecha económica de NVIDIA a niveles que podrían ser insuperables para competidores que intenten ganar tracción en las eras de inferencia y IA física.