Discurso completo de Huang Renxun en GTC: Ha llegado la era de la inferencia, ingresos en 2027 de al menos un billón de dólares, la langosta es el nuevo sistema operativo

16 de marzo de 2026, la conferencia GTC 2026 de NVIDIA abrió oficialmente sus puertas, y el fundador y CEO Jensen Huang pronunció su discurso principal.

En esta conferencia, considerada como la peregrinación anual de la industria de la IA, Huang explicó la transformación de NVIDIA de ser una “empresa de chips” a una “empresa de infraestructura y fábricas de IA”. Frente a las principales preocupaciones del mercado sobre la sostenibilidad del rendimiento y el potencial de crecimiento, Huang desglosó la lógica comercial subyacente que impulsa el crecimiento futuro: la “economía de la fábrica de tokens”.

Las proyecciones de rendimiento son extremadamente optimistas, “demanda de al menos 1 billón de dólares para 2027”

En los últimos dos años, la demanda global de computación de IA ha explotado exponencialmente. A medida que los grandes modelos evolucionan de “percepción” y “generación” a “razonamiento” y “ejecución (realización de tareas)”, el consumo de potencia de cálculo se ha disparado. Frente a los límites en pedidos y ingresos que el mercado observa con atención, Huang expresó expectativas muy fuertes.

Huang afirmó claramente en su discurso:

Hace un año, mencioné que veíamos una demanda de 500 mil millones de dólares con alta certeza, cubriendo Blackwell y Rubin hasta 2026. Ahora, justo en este momento, veo una demanda de al menos 1 billón de dólares para 2027.

La expectativa de Huang de alcanzar esa cifra de un billón de dólares impulsó en su momento un aumento del más del 4.3% en el precio de las acciones de NVIDIA.

Además, añadió:

¿Es esto razonable? Eso es precisamente lo que voy a explicar a continuación. De hecho, ¡incluso estaremos por encima de la demanda! Estoy seguro de que la demanda real de cálculo será mucho mayor.

Huang señaló que los sistemas de NVIDIA ya han demostrado ser la “infraestructura de menor costo en el mundo”. Dado que NVIDIA puede ejecutar casi todos los modelos de IA en diversos campos, esta versatilidad permite que la inversión de ese billón de dólares por parte de los clientes sea plenamente aprovechada y tenga una larga vida útil.

Actualmente, el 60% del negocio de NVIDIA proviene de las cinco principales grandes nubes públicas, mientras que el 40% restante se distribuye ampliamente en nubes soberanas, empresas, industrias, robótica y computación en el edge.

Economía de la fábrica de tokens: el rendimiento por vatio determina la supervivencia comercial

Para explicar la razonabilidad de esa demanda de un billón de dólares, Huang presentó a los CEOs de empresas de todo el mundo un nuevo enfoque comercial. Señaló que los centros de datos del futuro ya no serán simples almacenes de archivos, sino “fábricas” que producen tokens (las unidades básicas generadas por IA).

Huang enfatizó:

Cada centro de datos, cada fábrica, por definición, está limitada por la electricidad. Una fábrica de 1 GW (gigavatios) nunca se convertirá en una de 2 GW; esto es una ley física y atómica. Con una potencia fija, quien tenga la mayor cantidad de tokens por vatio, tendrá los costos de producción más bajos.

Huang divide los servicios de IA futuros en cuatro niveles comerciales:

  • Nivel gratuito (alto rendimiento, baja velocidad)
  • Nivel intermedio (~3 dólares por millón de tokens)
  • Nivel avanzado (~6 dólares por millón de tokens)
  • Nivel de alta velocidad (~45 dólares por millón de tokens)
  • Nivel ultra rápido (~150 dólares por millón de tokens)

Señaló que, a medida que los modelos crecen en tamaño y el contexto se extiende, la IA se vuelve más inteligente, pero la velocidad de generación de tokens disminuye. Huang afirmó:

En esta fábrica de tokens, tu rendimiento y velocidad de generación de tokens se traducirán directamente en tus ingresos precisos del próximo año.

Huang destacó que la arquitectura de NVIDIA permite a los clientes lograr un rendimiento extremadamente alto en el nivel gratuito, mientras que en el nivel de inferencia de mayor valor, el rendimiento puede aumentar hasta 35 veces.


Vera Rubin logra un aceleramiento de 350 veces en dos años, Groq llena el vacío en inferencia ultrarrápida

Bajo las limitaciones físicas, NVIDIA presentó su sistema de cálculo de IA más complejo hasta la fecha: Vera Rubin. Huang dijo:

Cuando mencioné Hopper, levantaba un chip, y eso era adorable. Pero cuando hablo de Vera Rubin, la gente piensa en todo el sistema. En este sistema, completamente refrigerado por líquido y sin cables tradicionales, los racks que antes tomaban dos días en instalarse ahora solo necesitan dos horas.

Huang explicó que, mediante un diseño extremo de colaboración entre hardware y software, Vera Rubin ha logrado un salto de datos impresionante en un centro de datos de 1 GW:

En solo dos años, hemos elevado la tasa de generación de tokens de 22 millones a 700 millones por segundo, logrando un crecimiento de 350 veces. La ley de Moore solo puede ofrecer un aumento de aproximadamente 1.5 veces en ese mismo período.

Para resolver el cuello de botella en ancho de banda en inferencia ultrarrápida (como 1000 tokens/seg), NVIDIA presentó la solución definitiva: inferencia asimétrica separada, integrando la empresa adquirida Groq. Huang explicó:

Estas dos procesadores tienen características radicalmente diferentes. La chip de Groq tiene 500MB de SRAM, mientras que una Rubin tiene 288GB de memoria.


Huang señaló que, mediante el sistema Dynamo, NVIDIA delega la fase de “prellenado” (que requiere mucha computación y memoria KV) a Vera Rubin, y la fase de “decodificación” (muy sensible a la latencia) a Groq. También dio recomendaciones para la configuración de capacidad de cálculo empresarial:

Si tu trabajo principal es alto rendimiento, usa 100% Vera Rubin; si necesitas generar muchos tokens de alto valor, reserva un 25% del centro de datos para Groq.

Se reveló que el chip LP30 de Groq, fabricado por Samsung, ya está en producción y se espera que comience a enviarse en el tercer trimestre, mientras que el primer rack Vera Rubin ya funciona en la nube de Azure de Microsoft.

Además, en cuanto a tecnología de interconexión óptica, Huang mostró el conmutador óptico de encapsulado conjunto Spectrum X, el primer en producción en masa, y calmó las preocupaciones del mercado sobre la transición de cobre a fibra óptica:

Necesitamos más capacidad de cables de cobre, más chips ópticos y más capacidad de CPO.

El fin de la era SaaS tradicional: “salario anual + tokens” se convierte en estándar en Silicon Valley

Más allá de las barreras de hardware, Huang dedicó mucho tiempo a la revolución del software y el ecosistema de IA, especialmente a la explosión de los agentes inteligentes (Agent).

Describió el proyecto de código abierto OpenClaw como “el proyecto de código abierto más popular en la historia de la humanidad”, que en solo unas semanas superó los logros de Linux en 30 años. Huang afirmó directamente:

Esencialmente, OpenClaw es el “sistema operativo” para las computadoras de agentes (Agent computers).

Huang afirmó:

Cada empresa SaaS se convertirá en una empresa AaaS (Agent-as-a-Service, agentes como servicio). Sin duda, para que estos agentes con acceso a datos sensibles y capacidad de ejecutar código sean seguros, NVIDIA lanzó el diseño de referencia empresarial NeMo Claw, que incluye motor de políticas y enrutador de privacidad.

Para los trabajadores comunes, esta transformación también está cerca. Huang describió la nueva forma de trabajo en el futuro:

En el futuro, cada ingeniero de nuestra empresa tendrá un presupuesto anual de tokens. Su salario base podría ser de decenas de miles de dólares, y además, les asignaré aproximadamente la mitad de esa cantidad en tokens, para que puedan multiplicar por 10 su productividad. ¿Qué tan importante será cuánto token tengan en su oferta de trabajo? Esa ya es una nueva estrategia de contratación en Silicon Valley.

Finalmente, Huang “filtró” detalles sobre la próxima arquitectura de computación Feynman, que permitirá la expansión conjunta de cobre y CPO por primera vez. Más aún, NVIDIA está desarrollando y desplegando en el espacio una computadora de datos en órbita, “Vera Rubin Space-1”, que abre la posibilidad de extender la potencia de cálculo de IA más allá de la Tierra.

El discurso completo de Huang en GTC 2026, traducido en su totalidad (con ayuda de herramientas de IA):

Moderador: Bienvenidos a la conferencia GTC, con Huang Renxun, fundador y CEO de NVIDIA.

Huang Renxun, fundador y CEO:

Bienvenidos a GTC. Quiero recordarles que esta es una conferencia tecnológica. Me alegra mucho ver a tanta gente haciendo fila desde temprano para entrar, y ver a todos ustedes aquí presentes.

En GTC, nos centraremos en tres temas principales: tecnología, plataforma y ecosistema. NVIDIA actualmente tiene tres plataformas principales: la plataforma CUDA-X, la plataforma de sistemas, y nuestra más reciente plataforma de fábricas de IA.

Antes de comenzar, quiero agradecer a los anfitriones de nuestro evento previo: Sarah Guo de Conviction, Alfred Lin de Sequoia Capital (el primer inversor de riesgo de NVIDIA), y Gavin Baker, nuestro primer inversor institucional importante. Los tres tienen profundas perspectivas sobre tecnología y una influencia muy amplia en el ecosistema tecnológico. También agradezco a todos los distinguidos invitados que he invitado personalmente. Gracias a este equipo de estrellas.

También quiero agradecer a todas las empresas presentes. NVIDIA es una compañía de plataformas, con tecnología, plataformas y un ecosistema rico. Los representantes de las empresas aquí presentes representan casi todos los participantes en la industria valorada en 100 billones de dólares. Agradecemos a 450 empresas que patrocinan este evento.

La conferencia contará con 1,000 foros técnicos y 2,000 oradores, cubriendo cada nivel de la arquitectura de “las cinco capas” de la inteligencia artificial: desde infraestructura básica como tierra, energía y centros de datos, hasta chips, plataformas, modelos, y las aplicaciones que impulsan toda la industria.

CUDA: 20 años de innovación

Todo comienza aquí. Este año marca el 20 aniversario de CUDA.

Durante veinte años, hemos dedicado esfuerzos a esta arquitectura. CUDA es una invención revolucionaria: la tecnología SIMT (Single Instruction Multiple Threads) permite a los desarrolladores escribir código escalar y escalarlo a aplicaciones multihilo, mucho más sencilla que las arquitecturas SIMD anteriores. Recientemente, añadimos funciones Tiles para facilitar la programación de núcleos tensor (Tensor Cores) y las operaciones matemáticas en las que se basa la IA moderna. Hoy, CUDA cuenta con miles de herramientas, compiladores, marcos y bibliotecas, con decenas de miles de proyectos en código abierto, y está profundamente integrada en todos los ecosistemas tecnológicos.

Esta gráfica revela toda la lógica estratégica de NVIDIA, y la he mostrado desde el principio. La parte más difícil y central de esta estrategia es la “instalación” en la base, en la parte inferior de la gráfica. Después de veinte años, hemos acumulado cientos de millones de GPUs y sistemas de cálculo que ejecutan CUDA en todo el mundo.

Nuestras GPUs cubren casi todos los proveedores de nube y fabricantes de computadoras. La enorme base instalada de CUDA es la fuerza que impulsa esta rueda de crecimiento: atrae a desarrolladores, que crean nuevos algoritmos y logran avances, lo que genera nuevos mercados y ecosistemas, atrayendo a más empresas, y así sucesivamente, acelerando aún más la expansión.

La descarga de las bibliotecas CUDA crece a un ritmo asombroso, en escala y velocidad. Esta rueda de crecimiento soporta innumerables aplicaciones y nuevos avances.

Más importante aún, otorga a estas infraestructuras una vida útil muy larga. La razón es simple: las aplicaciones que corren en CUDA son muy diversas, cubren todas las etapas del ciclo de vida de la IA, plataformas de datos, y solucionadores científicos. Por eso, una vez que se instala una GPU NVIDIA, su valor de uso es muy alto. Por eso, hace seis años, cuando lanzamos la GPU Ampere, su precio en la nube incluso aumentó.

Todo esto se debe a la enorme base instalada, la rueda en movimiento, y un ecosistema de desarrolladores amplio. Cuando estos factores trabajan juntos, y actualizamos continuamente nuestro software, los costos de cálculo bajan constantemente. La computación acelerada mejora el rendimiento de las aplicaciones, y al mantener y actualizar nuestro software a largo plazo, los usuarios disfrutan de mejoras de rendimiento iniciales y de una reducción continua en los costos. Estamos comprometidos a apoyar a cada GPU NVIDIA a largo plazo, porque en su arquitectura son totalmente compatibles.

La razón de esto es la enorme base instalada: cada vez que optimizamos, beneficiamos a millones de usuarios. Esta dinámica amplía la cobertura de NVIDIA, acelera nuestro crecimiento, y reduce los costos de cálculo, estimulando nuevas expansiones. CUDA es el núcleo de todo esto.

De GeForce a CUDA: 25 años de evolución

Nuestra historia con CUDA comenzó hace ya 25 años.

GeForce — muchos de ustedes han crecido con GeForce. Es uno de los mayores éxitos de NVIDIA en marketing. Desde antes de que pudieran comprar nuestros productos, ya cultivábamos a los futuros clientes: sus padres, en lugar de ellos, fueron los primeros en usar NVIDIA, comprando nuestros productos año tras año, hasta que ustedes crecieron y se convirtieron en científicos de la computación, en clientes y desarrolladores.

Esa fue la base de GeForce hace 25 años. Hace 25 años, inventamos los shaders programables — un avance simple pero profundo que permitió a los aceleradores ser programables, y fue la primera GPU programable, el pixel shader. Cinco años después, creamos CUDA, una de nuestras inversiones más importantes. En ese momento, la compañía tenía recursos limitados, pero apostamos la mayor parte de las ganancias en extender CUDA desde GeForce a cada computadora. Nuestra convicción era profunda, y mantuvimos esa fe durante 13 generaciones, 20 años, y ahora CUDA está en todas partes.

Los pixel shaders impulsaron la revolución de GeForce. Hace unos ocho años, lanzamos RTX, que revolucionó por completo la arquitectura de gráficos en tiempo real. GeForce llevó CUDA a todo el mundo, y gracias a eso, investigadores como Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton, y Andrew Ng descubrieron que las GPU podían acelerar el aprendizaje profundo, desencadenando la explosión de la IA hace una década.

Hace diez años, decidimos fusionar el shader programable con dos ideas nuevas: una, el trazado de rayos en hardware (Ray Tracing), que fue un gran desafío técnico; y dos, una visión avanzada que preveía que la IA transformaría radicalmente los gráficos por computadora, hace aproximadamente diez años. Como GeForce llevó la IA a todo el mundo, ahora la IA está transformando la forma en que se hacen los gráficos.

Hoy, quiero mostrarles el futuro. Es nuestra próxima generación de tecnología gráfica, llamada renderizado neuronal (Neural Rendering), una profunda integración de gráficos 3D e IA. Esto es DLSS 5, miren.

Renderizado neuronal: la fusión de datos estructurados y IA generativa

¿No es impresionante? Los gráficos por computadora cobran nueva vida.

¿Qué hemos hecho? Combinamos gráficos 3D controlados (la base de mundos virtuales) con datos estructurados, y los fusionamos con IA generativa y cálculo probabilístico. Una parte es totalmente determinista, la otra altamente probabilista y realista. Fusionamos estas ideas, logrando precisión y control mediante datos estructurados, y generación en tiempo real. El contenido resulta hermoso, impactante y completamente controlable.

La idea de fusionar datos estructurados con IA generativa se repetirá en muchas industrias. Los datos estructurados son la base para IA confiable.

Plataformas aceleradas para datos estructurados y no estructurados

Ahora, veamos un diagrama de arquitectura tecnológica.

Datos estructurados — conocidos por todos: SQL, Spark, Pandas, Velox, y plataformas clave como Snowflake, Databricks, Amazon EMR, Azure Fabric, Google BigQuery, todos trabajan con Data Frames. Estos Data Frames son como enormes hojas de cálculo, que contienen toda la información del mundo empresarial, y son la base de la computación empresarial (Ground Truth).

En la era de la IA, necesitamos que la IA use estos datos estructurados y los acelere al máximo. Antes, acelerar el procesamiento de datos estructurados servía para que las empresas funcionaran mejor. Pero en el futuro, la IA usará estos datos a velocidades mucho mayores que los humanos, y los agentes de IA accederán en gran medida a bases de datos estructuradas.

En cuanto a datos no estructurados, los bases de datos vectoriales, PDFs, videos, audios constituyen la mayor parte de los datos del mundo: aproximadamente el 90% de los datos generados cada año son no estructurados. Antes, estos datos eran casi inutilizables: solo los leíamos, los almacenábamos en sistemas de archivos, y nada más. No podíamos consultarlos ni recuperarlos fácilmente, porque carecían de índices simples y requerían entender su significado y contexto. Ahora, la IA puede hacerlo: mediante percepción multimodal y comprensión, puede leer PDFs, entender su contenido y convertirlos en estructuras que se puedan consultar.

NVIDIA ha creado dos bibliotecas fundamentales para esto:

  • cuDF: para acelerar el procesamiento de Data Frames y datos estructurados
  • cuVS: para almacenamiento vectorial, datos semánticos y datos no estructurados de IA

Estas plataformas serán algunas de las bases más importantes del futuro.

Hoy, anunciamos colaboraciones con varias empresas. IBM, inventora del lenguaje SQL, usará cuDF para acelerar su plataforma WatsonX Data. Dell ha desarrollado junto con nosotros la plataforma de datos de IA de Dell, integrando cuDF y cuVS, logrando mejoras de rendimiento en proyectos reales de NTT Data. Google Cloud no solo acelera Vertex AI, sino también BigQuery, y en colaboración con Snapchat, ha reducido en casi un 80% sus costos de cálculo.

Los beneficios del cálculo acelerado son tres: velocidad, escala y costo. Siguen la lógica de la ley de Moore: mediante aceleración, logramos saltos en rendimiento, y optimizando algoritmos, reducimos continuamente los costos de cálculo.

NVIDIA ha construido una plataforma de cálculo acelerado, con muchas bibliotecas integradas: RTX, cuDF, cuVS, etc. Estas bibliotecas se integran en servicios en la nube global y en OEMs, alcanzando a usuarios en todo el mundo.

Colaboración profunda con proveedores de nube

Colaboraciones con principales proveedores de nube

Google Cloud: aceleramos Vertex AI y BigQuery, con integración profunda en JAX/XLA, y un rendimiento sobresaliente en PyTorch — NVIDIA es el único acelerador que funciona bien en PyTorch y JAX/XLA. Hemos integrado clientes como Base10, CrowdStrike, Puma, Salesforce en el ecosistema de Google Cloud.

AWS: aceleramos EMR, SageMaker y Bedrock, con una colaboración profunda. Este año, estoy especialmente emocionado de anunciar que llevaremos OpenAI a AWS, lo que impulsará mucho el consumo en la nube de AWS y ayudará a OpenAI a expandir su despliegue regional y capacidad de cálculo.

Microsoft Azure: la supercomputadora de 100 PFLOPS que construimos para Azure fue la primera en desplegarse en Azure, y sentó las bases para colaborar con OpenAI. Aceleramos los servicios en la nube de Azure y AI Foundry, expandiendo las regiones de Azure, y colaborando estrechamente en Bing Search. Además, nuestra capacidad de computación confidencial (Confidential Computing), que garantiza que incluso los operadores no puedan ver los datos y modelos de los usuarios, es soportada por las primeras GPUs de NVIDIA que soportan esta función, permitiendo despliegues seguros de modelos de OpenAI y Anthropic en la nube global. Por ejemplo, aceleramos todos los flujos de trabajo EDA y CAD de Synopsys, desplegados en Microsoft Azure.

Oracle: somos el primer cliente de IA de Oracle, y me enorgullece haber sido el primero en explicarles el concepto de IA en la nube. Desde entonces, han crecido mucho, y también hemos introducido en su ecosistema a socios como Cohere, Fireworks, OpenAI.

CoreWeave: la primera nube nativa de IA en el mundo, especializada en alojamiento de GPU y servicios en la nube de IA, con una base de clientes excelente y un crecimiento fuerte.

Palantir + Dell: crearon una nueva plataforma de IA basada en la ontología de Palantir y su plataforma de IA, que puede desplegarse en cualquier país, en entornos aislados, de forma completamente local, cubriendo desde procesamiento de datos (vectorial o estructurado) hasta toda la pila de cálculo acelerado de IA.

NVIDIA ha establecido estas colaboraciones especiales con proveedores de nube en todo el mundo: llevamos clientes a la nube, creando un ecosistema de beneficio mutuo.

Estrategia central: integración vertical y apertura horizontal


NVIDIA es la primera compañía en integrar verticalmente y abrir horizontalmente.

La necesidad de este modelo es simple: el cálculo acelerado no es solo un problema de chips o sistemas, sino de aplicaciones. Los CPU hacen que las computadoras funcionen más rápido, pero esa vía ha llegado a un límite. Solo mediante aceleración específica por aplicación o por dominio se pueden lograr avances continuos en rendimiento y reducción de costos.

Por eso, NVIDIA debe profundizar en cada biblioteca, en cada campo, en cada industria vertical. Somos una compañía de cálculo verticalmente integrada, sin otra opción. Debemos entender las aplicaciones, los dominios, los algoritmos, y poder desplegarlos en cualquier escenario: centros de datos, nube, local, edge, robots.

Al mismo tiempo, NVIDIA mantiene una apertura horizontal, integrando tecnología en plataformas de socios, para que todo el mundo pueda beneficiarse del cálculo acelerado.

La estructura de asistentes a esta GTC refleja esto claramente. La mayoría de los asistentes son del sector financiero — más que traders, son desarrolladores. Nuestro ecosistema cubre toda la cadena de suministro, desde proveedores con 50, 70 o 150 años de historia, hasta los mejores años en la historia reciente. Estamos en el inicio de algo muy, muy importante.

Bibliotecas de aceleración por industria: CUDA-X


NVIDIA ha profundizado en cada sector:

  • Conducción autónoma: amplio alcance y gran impacto
  • Servicios financieros: la inversión cuantitativa pasa de ingeniería manual a aprendizaje profundo impulsado por supercomputadoras, en su “momento Transformer”
  • Salud: llega su propio “momento ChatGPT”, con IA en descubrimiento de fármacos, agentes inteligentes para diagnósticos, atención médica y soporte
  • Industria: la mayor ola de construcción global, con fábricas de IA, chips y centros de datos en marcha
  • Entretenimiento y juegos: plataformas en tiempo real para traducción, streaming, interacción en juegos y agentes de compras inteligentes
  • Robótica: más de diez años de trabajo, con tres arquitecturas principales (entrenamiento, simulación, en robots), y 110 robots en esta exposición
  • Telecomunicaciones: un sector de aproximadamente 2 billones de dólares, donde las estaciones base evolucionan de funciones de comunicación a plataformas de infraestructura IA, con plataformas como Aerial, en colaboración con Nokia, T-Mobile y otros.

Todos estos sectores tienen en común que usan nuestras bibliotecas CUDA-X, que son el núcleo de NVIDIA como empresa de algoritmos. Estas bibliotecas son los activos más importantes, y permiten que la plataforma de cálculo tenga impacto real en cada industria.

Entre ellas, la más importante es cuDNN (CUDA Deep Neural Network library), que revolucionó la IA y desencadenó la explosión moderna de la inteligencia artificial.

(Se muestra un video de demostración de CUDA-X)

Todo lo que han visto hasta ahora es simulación: solucionadores físicos, modelos de IA para agentes físicos, modelos de robots físicos. Todo es simulación, sin animaciones manuales ni articulaciones predefinidas. Esa es la capacidad central de NVIDIA: mediante una profunda comprensión de algoritmos y una plataforma de cálculo integrada, desbloqueamos estas oportunidades.

IA nativa y la nueva era del cálculo


Han visto a Walmart, L’Oréal, JPMorgan, Roche, Toyota, y muchas otras empresas líderes, así como muchas que nunca han oído: las llamamos empresas nativas de IA. La lista es enorme, con OpenAI, Anthropic, y muchas startups en diferentes verticales.

En los últimos dos años, esta industria ha experimentado un crecimiento asombroso. La inversión en startups alcanzó 150 mil millones de dólares, la mayor en la historia humana. Y, por primera vez, las inversiones individuales pasaron de millones a cientos de millones o miles de millones de dólares. La razón: todas estas empresas necesitan una gran cantidad de recursos de cálculo y tokens. La industria está creando y generando tokens, o valorando tokens de instituciones como Anthropic y OpenAI.

Como la revolución del PC, internet y móvil, esta transformación de plataformas de cálculo dará lugar a empresas revolucionarias que serán fuerzas importantes en el futuro.

Tres avances históricos que impulsan todo esto


¿Qué ocurrió en los últimos dos años? Tres eventos principales.

Primero: ChatGPT, que inauguró la era de la IA generativa (finales de 2022 a 2023)

No solo percibe y comprende, sino que también genera contenido único. Mostré cómo la IA generativa se fusiona con gráficos por computadora. La IA generativa cambia fundamentalmente la forma de calcular: pasa de búsqueda a generación, afectando la arquitectura, el despliegue y el significado general.

Segundo: IA de razonamiento (Reasoning AI), representada por o1

La capacidad de razonar permite a la IA reflexionar, planear y descomponer problemas — dividir problemas que no puede entender directamente en pasos manejables. o1 hace que la IA generativa sea confiable, capaz de razonar con información real. Para ello, aumenta significativamente la cantidad de tokens en la entrada y en la salida, y el cálculo se dispara.

Tercero: Claude Code, el primer modelo de agentes

Puede leer archivos, escribir código, compilar, probar y mejorar iterativamente. Claude Code revoluciona la ingeniería de software: todos los ingenieros de NVIDIA usan al menos uno de los modelos Claude Code, Codex o Cursor, sin excepción.

Es un punto de inflexión: ya no solo preguntamos a la IA “qué es, dónde está, cómo hacerlo”, sino que le pedimos “crear, ejecutar, construir”, que use herramientas, lea archivos, descomponga problemas y actúe. La IA pasa de percepción a generación, razonamiento y ahora a acción concreta.

En los últimos dos años, el cálculo necesario para razonamiento creció unas 10,000 veces, y su uso unas 100 veces. Siempre pensé que en ese período, la demanda de cálculo aumentó un millón de veces — esa es la experiencia común, la de OpenAI, la de Anthropic. Cuanto más cálculo, más tokens se generan, más ingresos, y más inteligente será la IA. El punto de inflexión en razonamiento ya está aquí.

Era de infraestructura de IA por billones de dólares


Hace un año, expresé que confiaba mucho en la demanda y pedidos de Blackwell y Rubin para 2026, con un volumen de unos 500 mil millones de dólares. Hoy, un año después, en GTC, digo: para 2027, veo que la cifra será al menos 1 billón de dólares. Y estoy seguro de que la demanda real será mucho mayor.

2025: El año de la inferencia en NVIDIA

2025 será el año de la inferencia en NVIDIA. Queremos que, además del entrenamiento y la post-entrenamiento, la infraestructura de IA funcione de manera excelente en todas las etapas del ciclo de vida, para que la inversión en infraestructura siga siendo eficiente y prolongada.

Además, Anthropic y Meta se unen oficialmente a la plataforma NVIDIA, representando un tercio de la demanda global de cálculo de IA. Los modelos de código abierto están en la frontera, en todas partes.

NVIDIA es actualmente la única plataforma capaz de ejecutar todos los tipos de modelos de IA — en lenguaje, biología, gráficos, visión, voz, proteínas, química, robótica, en edge y en la nube, en cualquier idioma. La arquitectura NVIDIA es universal para todos estos escenarios, y eso nos hace la plataforma más económica y confiable.

Actualmente, el 60% del negocio de NVIDIA proviene de las cinco principales grandes nubes públicas, y el 40% restante de nubes regionales, soberanas, empresas, industrias, robótica y edge. La amplitud de la IA en todos estos sectores es su fortaleza — sin duda, una transformación radical del cálculo.

Blackwell y NVLink 72: innovación arquitectónica audaz


Cuando Hopper aún dominaba, decidimos reestructurar completamente el sistema, expandiendo NVLink de 8 a 72 canales, y rediseñando toda la arquitectura. Blackwell NVLink 72 es una apuesta tecnológica enorme, y agradezco sinceramente a todos los socios.

También lanzamos NVFP4 — no solo FP4 normal, sino un nuevo tipo de núcleo tensor y unidad de cálculo. Hemos demostrado que NVFP4 puede hacer inferencia sin pérdida de precisión, con un rendimiento y eficiencia energética enormes, y también sirve para entrenamiento. Además, nuevas algoritmos como Dynamo y TensorRT-LLM han llegado, y hemos invertido miles de millones en construir un supercomputador llamado DGX Cloud para optimizar kernels.

Los resultados en rendimiento de inferencia son sorprendentes. Datos de Semi Analysis — la evaluación más completa de rendimiento de inferencia IA hasta ahora — muestran que NVIDIA lidera en eficiencia por vatio y costo por token. La ley de Moore solo puede ofrecer 1.5 veces de mejora en H200, pero nosotros logramos 35 veces. Dylan Patel de Semi Analysis incluso dice: “Huang fue conservador, en realidad son 50 veces.” Tiene razón.

Cito sus palabras: “Jensen hizo una estimación conservadora.”

El costo por token de NVIDIA es el más bajo del mundo, sin competencia. La clave está en el diseño de co-ingeniería extrema.

Tomemos Fireworks como ejemplo: antes de actualizar nuestro software y algoritmos, la velocidad promedio era de unos 700 tokens por segundo; tras la actualización, casi 5,000 tokens por segundo, ¡una mejora de 7 veces! Esa es la fuerza del diseño de co-ingeniería.

Cálculo de fábrica de IA: de centros de datos a fábricas de tokens


Los centros de datos, que antes solo almacenaban archivos, ahora son fábricas de tokens. Cada proveedor de nube y cada empresa de IA medirá su éxito en “eficiencia de fábrica de tokens”.

Mi argumento principal:

  • Eje vertical: rendimiento (Throughput) — tokens generados por segundo en potencia fija
  • Eje horizontal: velocidad de interacción (Token Speed) — respuesta por inferencia, cuanto más rápido, mayor tamaño de modelo y contexto, más inteligente la IA

Los tokens son la nueva mercancía principal, y una vez madura, tendrá precios escalonados:

  • Nivel gratuito (alto rendimiento, baja velocidad)
  • Nivel intermedio (~3 dólares por millón de tokens)
  • Nivel avanzado (~6 dólares por millón de tokens)
  • Nivel de alta velocidad (~45 dólares por millón de tokens)
  • Nivel ultra rápido (~150 dólares por millón de tokens)

En comparación con Hopper, Blackwell aumenta en 35 veces el rendimiento en el nivel de mayor valor, y añade nuevos niveles. Con una estimación simple, si se asignan 25% de potencia a cada nivel, Blackwell puede generar 5 veces más ingresos que Hopper.

Vera Rubin: la próxima generación de sistemas de cálculo IA


(Se muestra video de presentación de Vera Rubin)

Vera Rubin es un sistema completo, optimizado de extremo a extremo, diseñado para cargas de trabajo de agentes (Agentic):

  • Núcleo de cálculo para grandes modelos de lenguaje: clúster de GPUs NVLink 72, para prellenado y caché KV
  • CPU Vera: diseñada para rendimiento de un solo hilo, con memoria LPDDR5, eficiencia energética sobresaliente, única en centros de datos, ideal para herramientas de agentes IA
  • Sistema de almacenamiento: BlueField 4 + CX 9, plataforma de almacenamiento para la era de IA, con participación del 100% en la industria del almacenamiento
  • Conmutador óptico CPO Spectrum X: primer conmutador óptico empaquetado conjunto en producción
  • Rack Kyber: nuevo sistema que soporta 144 GPUs en un solo dominio NVLink, con computación frontal y conmutación NVLink trasera, formando una supercomputadora gigante
  • Rubin Ultra: próxima generación de nodos de supercomputación, con diseño vertical, compatible con Kyber, para mayor escala NVLink

Vera Rubin ya es 100% refrigerada por líquido, y su instalación se redujo de dos días a solo dos horas, usando agua caliente a 45°C, reduciendo significativamente la carga de enfriamiento en centros de datos. Satya Nadella confirmó que la primera unidad Vera Rubin ya funciona en Azure, lo cual es muy emocionante.

Groq: extensión extrema en rendimiento de inferencia


Adquirimos el equipo de Groq y su tecnología. Groq es un procesador de flujo de datos determinista (Deterministic Dataflow Processor), que usa compilación estática y programación por compilador, con mucha SRAM, optimizado para cargas de inferencia, con latencia muy baja y velocidad de generación de tokens muy alta.

Sin embargo, Groq tiene memoria limitada (500MB de SRAM en chip), lo que dificulta manejar modelos grandes con muchos parámetros y caché KV, limitando su uso a gran escala.

La solución es Dynamo, un sistema de programación de inferencia. Con Dynamo, desacoplamos la línea de inferencia:

  • Prellenado y atención en Vera Rubin (requiere mucha computación y memoria KV)
  • Decodificación de redes feed-forward (generación de tokens), en Groq (requiere ancho de banda y baja latencia extremos)

Estos dos componentes se conectan mediante Ethernet, con modos especiales que reducen la latencia a la mitad. Bajo la gestión unificada de Dynamo, la “sistema operativo de fábrica de IA”, el rendimiento aumenta 35 veces, y se abren nuevos niveles de inferencia que antes no eran posibles con NVLink 72.

La combinación de Groq y Vera Rubin recomienda:

  • Si la carga principal es alto rendimiento, usar 100% Vera Rubin
  • Si se generan muchos tokens de alto valor, incluir Groq, con una proporción de aproximadamente 25% Groq y 75% Vera Rubin

El chip LP30 de Groq, fabricado por Samsung, ya está en producción y se espera que comience a enviarse en el tercer trimestre. Gracias a Samsung por su colaboración.

Logro histórico en rendimiento de inferencia


En términos de avances tecnológicos, en solo 2 años, la tasa de generación de tokens en una fábrica de IA de 1 GW pasó de 22 millones a 700 millones por segundo, un aumento de 350 veces. Esa es la fuerza del diseño de co-ingeniería extrema.

Hoja de ruta tecnológica


  • Blackwell: en producción, sistema de rack Oberon, expansión de cobre a NVLink 72, opción a fibra óptica hasta NVLink 576
  • Vera Rubin (actual): rack Kyber, NVLink 144 (cobre); rack Oberon, NVLink 72 + fibra óptica, expansión a NVLink 576; Spectrum 6, primer conmutador CPO en masa
  • Vera Rubin Ultra (próximo): nueva GPU Rubin Ultra, chip LP35 (con NVFP4 integrado), varias veces más potente
  • Feynman (futuro): nueva GPU, chip LP40 (desarrollado en colaboración con Groq, con NVFP4); CPU Rosa (Rosalyn); BlueField 5; CX 10; soporte a expansión por cobre y CPO en el mismo rack Kyber

La hoja de ruta muestra que las rutas de expansión por cobre, fibra óptica (Scale-Up) y fibra óptica en paralelo (Scale-Out) continuarán, y que todos los socios deben ampliar continuamente la producción en cobre, fibra y CPO.

NVIDIA DSX: plataforma digital twin para fábricas de IA


Las fábricas de IA son cada

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado