Em 5 de janeiro, na CES 2026, o CEO da NVIDIA Jensen Huang comandou o palco com a sua assinatura de jaqueta de couro durante 1,5 horas, condensando a visão mais ambiciosa da empresa para a era da IA numa apresentação de alto impacto. Oito anúncios importantes emergiram desta janela breve, remodelando o panorama competitivo, passando do treino de modelos de IA para o que a NVIDIA vê como a próxima fronteira: inferência eficiente em escala e IA física integrada em todo o mundo real.
O subtexto por trás destes anúncios reflete uma mudança fundamental no mercado. À medida que os tamanhos dos modelos crescem 10x anualmente e os contadores de tokens de inferência expandem 5x por ano—enquanto os custos por token caem 10x—a indústria de computação enfrenta uma nova restrição: a inferência tornou-se o gargalo, não o treino. Toda a arquitetura Vera Rubin da NVIDIA, anunciada 1,5 horas antes, foi concebida em torno desta realidade.
Seis Chips Personalizados em Um Rack: A Supercomputador de IA Vera Rubin Reinventa Densidade e Performance
No núcleo do hardware está o NVIDIA Vera Rubin POD, um supercomputador de IA construído sob medida, integrando seis chips proprietários projetados para trabalharem em sincronia. Esta filosofia de co-design marca uma mudança da abordagem modular que definiu gerações anteriores. O sistema flagship, Vera Rubin NVL72, incorpora 2 trilhões de transistores num único rack, entregando 3,6 EFLOPS de performance de inferência NVFP4—um aumento de cinco vezes em relação à geração Blackwell anterior.
A arquitetura divide-se assim:
Vera CPU: Construída em torno de 88 núcleos Olympus personalizados com 176 threads da tecnologia de Multithreading Espacial da NVIDIA. Suporta 1,8TB/s de largura de banda NVLink-C2C, permitindo memória unificada CPU-GPU sem costura. A memória do sistema escala para 1,5TB—tripla do CPU Grace—com largura de banda de 1,2TB/s LPDDR5X. O CPU duplica a performance de processamento de dados e introduz computação confidencial a nível de rack, o primeiro TEE verdadeiro que abrange domínios de CPU e GPU.
GPU Rubin: A peça central apresenta um motor Transformer que permite inferência NVFP4 a 50 PFLOPS (5x Blackwell) e treino NVFP4 a 35 PFLOPS (3,5x Blackwell). Suporta memória HBM4 com 22TB/s de largura de banda—2,8x a geração anterior—crucial para lidar com modelos massivos de Mistura de Especialistas (MoE). A compatibilidade retroativa garante migrações suaves de implementações Blackwell existentes.
Switch NVLink 6: A velocidade por linha sobe para 400Gbps, atingindo 3,6TB/s de largura de banda de interconexão total por GPU (2x geração anterior). A largura de banda total entre switches atinge 28,8TB/s, com computação na rede entregando 14,4 TFLOPS em precisão FP8. O sistema opera a 100% com refrigeração líquida, eliminando restrições térmicas.
ConnectX-9 SuperNIC: Fornece 1,6Tb/s de largura de banda por GPU, totalmente programável e definido por software para cargas de trabalho de IA em grande escala.
BlueField-4 DPU: Uma NIC inteligente de 800Gbps equipada com CPU Grace de 64 núcleos e ConnectX-9. Offload de tarefas de rede e armazenamento, além de melhorar a segurança—oferecendo 6x a performance de computação e 3x a largura de banda de memória do geração anterior, com acesso GPU-armazenamento 2x mais rápido.
Spectrum-X 102,4T CPO: Um switch óptico integrado usando tecnologia SerDes de 200Gbps, fornecendo 102,4Tb/s por ASIC. A configuração de alta densidade de 512 portas (800Gb/s por porta) permite que todo o sistema funcione como uma entidade unificada, não como componentes isolados.
O tempo de montagem caiu de duas horas para cinco minutos, enquanto as janelas de manutenção foram eliminadas graças à arquitetura de Switch NVLink de zero tempo de inatividade. O design modular do sistema, agora sem cabos e sem ventoinhas ao nível do bandeja de computação, torna o serviço 18x mais rápido do que as gerações anteriores. Estes ganhos operacionais traduzem-se diretamente na redução do TCO do data center e na melhoria do uptime.
Três Plataformas Especializadas Abordam a Restrição Real da Inferência de IA: Armazenamento de Contexto e Throughput
Enquanto o poder bruto de computação melhora 5x, a inferência apresenta um problema diferente—um que ciclos brutos de GPU não podem resolver sozinhos. A NVIDIA introduziu três produtos integrados para preencher esta lacuna, cada um direcionado a um gargalo específico no mundo escalado de inferência.
Spectrum-X Óptica Ethernet Co-Packaged: Rede como Infraestrutura Crítica
A comutação de rede tradicional consome energia massiva e introduz latência que prejudica o desempenho de inferência. O Spectrum-X Ethernet CPO, baseado na arquitetura Spectrum-X com um design de dois chips, alcança 5x de eficiência energética, 10x de confiabilidade maior e 5x de tempo de atividade de aplicação melhorado. O sistema de 512 portas opera a 800Gb/s por porta, escalando para uma capacidade total de 102,4Tb/s.
As implicações são diretas: mais tokens processados por dia traduzem-se em menor custo-por-token, reduzindo o TCO do data center por um fator que a NVIDIA considera transformador para operadores de hyperscale.
Plataforma de Armazenamento de Memória de Contexto de Inferência: Tornando Caches KV Práticos em Escala
Cargas de trabalho de inferência para sistemas Agentic de IA—diálogo multi-turno, Geração Aumentada por Recuperação (RAG), raciocínio em múltiplas etapas—exigem armazenamento persistente de contexto. Sistemas atuais enfrentam um paradoxo: memória de GPU é rápida, mas escassa; armazenamento de rede é abundante, mas demasiado lento para acesso de curto prazo ao contexto. A Plataforma de Armazenamento de Memória de Contexto de Inferência NVIDIA preenche esta lacuna ao tratar o contexto como um tipo de dado de primeira classe na infraestrutura.
Acelerada por BlueField-4 e Spectrum-X, esta nova camada de armazenamento conecta-se a clusters de GPU via interconexões NVLink especializadas. Em vez de recomputar caches de chaves-valores a cada passo de inferência, o sistema mantém-nos em armazenamento otimizado, alcançando 5x melhor performance de inferência e 5x eficiência energética para cargas de trabalho com forte dependência de contexto. Para sistemas de IA que evoluem de chatbots sem estado para agentes com estado que raciocinam através de milhões de tokens, esta adição arquitetural elimina um gargalo fundamental de escalabilidade.
A NVIDIA está colaborando com parceiros de armazenamento para integrar esta plataforma diretamente em implementações baseadas em Rubin, posicionando-a como elemento central de infraestrutura de IA turnkey, ao invés de uma adição secundária.
DGX SuperPOD (Edição Vera Rubin): O Modelo de Fábrica para Inferência de Custo Ótimo
O DGX SuperPOD serve como arquitetura de referência da NVIDIA para implantação de inferência de IA em grande escala. Construído com oito sistemas DGX Vera Rubin NVL72, aproveita NVLink 6 para extensão vertical de rede, Spectrum-X Ethernet para escalabilidade horizontal e a Plataforma de Armazenamento de Memória de Contexto de Inferência para orquestração de contexto. Toda a pilha é gerenciada pelo software NVIDIA Mission Control.
O resultado: em comparação com a infraestrutura da era Blackwell, treinar modelos MoE de escala equivalente requer 1/4 do número de GPUs, e os custos por token para inferência de grandes MoE caem para 1/10. Para provedores de nuvem e empresas, isto representa uma alavanca econômica massiva—a mesma carga de trabalho processada com muito menos GPUs, gerando economias de infraestrutura na casa dos bilhões de dólares em escala.
Nemotron, Blueprints e Aceleração Open-Source: Construindo Sistemas de IA Multi-Modelo, Multi-Nuvem
Paralelamente aos anúncios de hardware, a NVIDIA anunciou sua maior expansão de código aberto até hoje. Em 2025, a empresa contribuiu com 650 modelos open-source e 250 conjuntos de dados open-source para o Hugging Face, tornando-se o maior contribuinte da plataforma. Métricas convencionais mostram que o uso de modelos open-source cresceu 20 vezes no último ano, representando aproximadamente 25% de todos os tokens de inferência.
A empresa está expandindo a família Nemotron com novos modelos: sistemas Agentic RAG, modelos de segurança especializados e modelos de fala voltados para aplicações multimodais de IA. Criticamente, a NVIDIA está entregando estes não como modelos isolados, mas como componentes dentro de uma estrutura maior chamada Blueprints.
Blueprints incorpora uma visão arquitetural chave que Jensen Huang derivou ao observar Perplexity e plataformas de IA em estágio inicial: IA agentic de nível de produção é inerentemente multi-modelo, multi-nuvem e híbrida por natureza. A estrutura permite aos desenvolvedores:
Encaminhar tarefas dinamicamente: modelos privados locais para cargas sensíveis à latência, modelos de fronteira de nuvem para capacidades de ponta
Chamar APIs e ferramentas externas de forma fluida (email systems, interfaces de controle de robôs, serviços de calendário)
Fundir entradas multimodais—texto, voz, imagens, dados de sensores de robôs—em representações unificadas
Estas capacidades, que antes eram ficção científica, agora estão acessíveis a desenvolvedores através da integração SaaS da NVIDIA com Blueprints. Implementações similares estão surgindo em plataformas empresariais como ServiceNow e Snowflake, sinalizando uma mudança para o pensamento a nível de sistemas na IA empresarial.
A implicação estratégica: a NVIDIA está democratizando simultaneamente o acesso às fronteiras da IA enquanto enraíza seus ecossistemas de software como padrão de fato para a construção de agentes de IA.
IA Física: Da Simulação à Realidade—Alpha-Mayo e o Ponto de Inflexão em Robótica
Após infraestrutura e modelos abertos, Huang pivotou para o que ele definiu como a fronteira definidora: IA física—sistemas que percebem o mundo físico, raciocinam sobre ele e geram ações diretamente. A transição espelha as eras anteriores da IA: IA perceptual, IA generativa, IA agentic. A IA física representa o estágio onde a inteligência entra em sistemas incorporados.
Huang delineou uma arquitetura de três computadores para o desenvolvimento de IA física:
Computadores de treino (DGX): Construir modelos fundamentais
Computadores de inferência (chips embutidos em robôs/veículos): Executar decisões em tempo real
Computadores de simulação (Omniverse): Gerar dados sintéticos e validar raciocínio físico
O modelo fundamental que sustenta esta pilha é o Cosmos World Foundation Model, que alinha linguagem, imagens, geometria 3D e leis físicas para suportar toda a cadeia desde a simulação até a implantação ao vivo.
Alpha-Mayo: Condução Autónoma como Ponta de Lança
A condução autónoma representa a primeira janela de implantação em grande escala para IA física. A NVIDIA lançou o Alpha-Mayo, um sistema completo composto por modelos open-source, ferramentas de simulação e conjuntos de dados para o desenvolvimento de condução autónoma de Nível 4.
Alpha-Mayo opera com um paradigma baseado em raciocínio, ao invés de comportamento aprendido puro de ponta a ponta. O modelo de 10 bilhões de parâmetros divide problemas em passos discretos, raciocina sobre possibilidades e escolhe a trajetória mais segura. Esta arquitetura permite que veículos lidem com casos extremos inéditos—como falhas em semáforos em cruzamentos movimentados—aplicando raciocínio aprendido ao invés de padrões memorizados.
Em implantação real, o sistema aceita prompts de texto, feeds de câmeras de visão periférica, histórico de estado do veículo e entrada de navegação, produzindo tanto uma trajetória de condução quanto uma explicação em linguagem natural do raciocínio. Esta transparência é fundamental para certificação regulatória e confiança do passageiro.
Mercedes-Benz CLA: A NVIDIA confirmou que o novo Mercedes-Benz CLA, alimentado por Alpha-Mayo, já está em produção e recentemente obteve a maior classificação de segurança do NCAP (Novo Programa de Avaliação de Carros). O veículo oferece condução mãos-livres em autoestrada e navegação urbana autônoma de ponta a ponta, com capacidades aprimoradas chegando ao mercado dos EUA ainda em 2026. Cada linha de código, chip e componente do sistema passou por certificação formal de segurança.
A NVIDIA também lançou:
Um subconjunto de conjuntos de dados usados para treinar Alpha-Mayo para ajuste fino por pesquisadores
Alpha-Sim, uma estrutura de simulação open-source para avaliar o desempenho do Alpha-Mayo
Ferramentas que permitem aos desenvolvedores combinar dados reais e sintéticos para aplicações personalizadas de condução autônoma
Parcerias em Robótica e Integração Industrial
Para além do transporte, a NVIDIA anunciou colaborações amplas em robótica. Empresas líderes—Boston Dynamics, Franka Robotics, Surgical, LG Electronics, NEURA, XRLabs e Logic Robotics—estão construindo sistemas na plataforma de simulação e desenvolvimento Isaac ( e no modelo de fundação para robótica GR00T ).
Além disso, a NVIDIA revelou uma parceria estratégica com a Siemens. A colaboração integra bibliotecas CUDA-X, modelos de IA e gêmeos digitais do Omniverse nas ferramentas EDA, CAE e de gêmeos digitais da Siemens. Isso posiciona a IA física ao longo de todo o ciclo de vida, desde o design e simulação até às operações de manufatura e implantação no mundo real.
A Estratégia: Velocidade Open Source Encontra o Encerramento de Hardware
A keynote de 1,5 horas cristalizou a estratégia dupla da NVIDIA rumo à era da inferência. Por um lado, a empresa está a abrir modelos, conjuntos de dados e ferramentas de desenvolvimento de forma agressiva. Por outro, está a tornar seu hardware, interconexões e designs de sistema cada vez mais insubstituíveis através de uma profunda co-otimização.
Isto cria um ciclo virtuoso:
Modelos e ferramentas open-source aceleram a adoção
A adoção mais ampla impulsiona a procura por escala de inferência
A escala de inferência exige hardware especializado da NVIDIA para alcançar desempenho custo-efetivo
À medida que os volumes de tokens aumentam, os clientes ficam presos à infraestrutura da NVIDIA
A filosofia de design a nível de sistema—desde os interconectores NVLink 6 até à Plataforma de Armazenamento de Memória de Contexto de Inferência—torna difícil para os concorrentes replicarem a vantagem de custo total de propriedade da NVIDIA. O que parece ser a NVIDIA “abrindo-se” via Nemotron e Blueprints na verdade reforça a sua cerca, tornando a sua plataforma a escolha óbvia para desenvolvedores de IA que procuram tanto flexibilidade quanto desempenho.
À medida que a indústria de IA transita de cargas de trabalho dominadas por treino para cargas dominadas por inferência, esta estratégia de ciclo fechado de expansão contínua de procura, redução de custo por token e encerramento de infraestrutura está a ampliar a vantagem económica da NVIDIA para níveis que podem ser intransponíveis para concorrentes que tentem ganhar tração nas eras da inferência e da IA física.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Jensen Huang fez oito anúncios importantes em apenas 1,5 horas, traçando o caminho da NVIDIA para a dominação em inferência e robótica
Em 5 de janeiro, na CES 2026, o CEO da NVIDIA Jensen Huang comandou o palco com a sua assinatura de jaqueta de couro durante 1,5 horas, condensando a visão mais ambiciosa da empresa para a era da IA numa apresentação de alto impacto. Oito anúncios importantes emergiram desta janela breve, remodelando o panorama competitivo, passando do treino de modelos de IA para o que a NVIDIA vê como a próxima fronteira: inferência eficiente em escala e IA física integrada em todo o mundo real.
O subtexto por trás destes anúncios reflete uma mudança fundamental no mercado. À medida que os tamanhos dos modelos crescem 10x anualmente e os contadores de tokens de inferência expandem 5x por ano—enquanto os custos por token caem 10x—a indústria de computação enfrenta uma nova restrição: a inferência tornou-se o gargalo, não o treino. Toda a arquitetura Vera Rubin da NVIDIA, anunciada 1,5 horas antes, foi concebida em torno desta realidade.
Seis Chips Personalizados em Um Rack: A Supercomputador de IA Vera Rubin Reinventa Densidade e Performance
No núcleo do hardware está o NVIDIA Vera Rubin POD, um supercomputador de IA construído sob medida, integrando seis chips proprietários projetados para trabalharem em sincronia. Esta filosofia de co-design marca uma mudança da abordagem modular que definiu gerações anteriores. O sistema flagship, Vera Rubin NVL72, incorpora 2 trilhões de transistores num único rack, entregando 3,6 EFLOPS de performance de inferência NVFP4—um aumento de cinco vezes em relação à geração Blackwell anterior.
A arquitetura divide-se assim:
Vera CPU: Construída em torno de 88 núcleos Olympus personalizados com 176 threads da tecnologia de Multithreading Espacial da NVIDIA. Suporta 1,8TB/s de largura de banda NVLink-C2C, permitindo memória unificada CPU-GPU sem costura. A memória do sistema escala para 1,5TB—tripla do CPU Grace—com largura de banda de 1,2TB/s LPDDR5X. O CPU duplica a performance de processamento de dados e introduz computação confidencial a nível de rack, o primeiro TEE verdadeiro que abrange domínios de CPU e GPU.
GPU Rubin: A peça central apresenta um motor Transformer que permite inferência NVFP4 a 50 PFLOPS (5x Blackwell) e treino NVFP4 a 35 PFLOPS (3,5x Blackwell). Suporta memória HBM4 com 22TB/s de largura de banda—2,8x a geração anterior—crucial para lidar com modelos massivos de Mistura de Especialistas (MoE). A compatibilidade retroativa garante migrações suaves de implementações Blackwell existentes.
Switch NVLink 6: A velocidade por linha sobe para 400Gbps, atingindo 3,6TB/s de largura de banda de interconexão total por GPU (2x geração anterior). A largura de banda total entre switches atinge 28,8TB/s, com computação na rede entregando 14,4 TFLOPS em precisão FP8. O sistema opera a 100% com refrigeração líquida, eliminando restrições térmicas.
ConnectX-9 SuperNIC: Fornece 1,6Tb/s de largura de banda por GPU, totalmente programável e definido por software para cargas de trabalho de IA em grande escala.
BlueField-4 DPU: Uma NIC inteligente de 800Gbps equipada com CPU Grace de 64 núcleos e ConnectX-9. Offload de tarefas de rede e armazenamento, além de melhorar a segurança—oferecendo 6x a performance de computação e 3x a largura de banda de memória do geração anterior, com acesso GPU-armazenamento 2x mais rápido.
Spectrum-X 102,4T CPO: Um switch óptico integrado usando tecnologia SerDes de 200Gbps, fornecendo 102,4Tb/s por ASIC. A configuração de alta densidade de 512 portas (800Gb/s por porta) permite que todo o sistema funcione como uma entidade unificada, não como componentes isolados.
O tempo de montagem caiu de duas horas para cinco minutos, enquanto as janelas de manutenção foram eliminadas graças à arquitetura de Switch NVLink de zero tempo de inatividade. O design modular do sistema, agora sem cabos e sem ventoinhas ao nível do bandeja de computação, torna o serviço 18x mais rápido do que as gerações anteriores. Estes ganhos operacionais traduzem-se diretamente na redução do TCO do data center e na melhoria do uptime.
Três Plataformas Especializadas Abordam a Restrição Real da Inferência de IA: Armazenamento de Contexto e Throughput
Enquanto o poder bruto de computação melhora 5x, a inferência apresenta um problema diferente—um que ciclos brutos de GPU não podem resolver sozinhos. A NVIDIA introduziu três produtos integrados para preencher esta lacuna, cada um direcionado a um gargalo específico no mundo escalado de inferência.
Spectrum-X Óptica Ethernet Co-Packaged: Rede como Infraestrutura Crítica
A comutação de rede tradicional consome energia massiva e introduz latência que prejudica o desempenho de inferência. O Spectrum-X Ethernet CPO, baseado na arquitetura Spectrum-X com um design de dois chips, alcança 5x de eficiência energética, 10x de confiabilidade maior e 5x de tempo de atividade de aplicação melhorado. O sistema de 512 portas opera a 800Gb/s por porta, escalando para uma capacidade total de 102,4Tb/s.
As implicações são diretas: mais tokens processados por dia traduzem-se em menor custo-por-token, reduzindo o TCO do data center por um fator que a NVIDIA considera transformador para operadores de hyperscale.
Plataforma de Armazenamento de Memória de Contexto de Inferência: Tornando Caches KV Práticos em Escala
Cargas de trabalho de inferência para sistemas Agentic de IA—diálogo multi-turno, Geração Aumentada por Recuperação (RAG), raciocínio em múltiplas etapas—exigem armazenamento persistente de contexto. Sistemas atuais enfrentam um paradoxo: memória de GPU é rápida, mas escassa; armazenamento de rede é abundante, mas demasiado lento para acesso de curto prazo ao contexto. A Plataforma de Armazenamento de Memória de Contexto de Inferência NVIDIA preenche esta lacuna ao tratar o contexto como um tipo de dado de primeira classe na infraestrutura.
Acelerada por BlueField-4 e Spectrum-X, esta nova camada de armazenamento conecta-se a clusters de GPU via interconexões NVLink especializadas. Em vez de recomputar caches de chaves-valores a cada passo de inferência, o sistema mantém-nos em armazenamento otimizado, alcançando 5x melhor performance de inferência e 5x eficiência energética para cargas de trabalho com forte dependência de contexto. Para sistemas de IA que evoluem de chatbots sem estado para agentes com estado que raciocinam através de milhões de tokens, esta adição arquitetural elimina um gargalo fundamental de escalabilidade.
A NVIDIA está colaborando com parceiros de armazenamento para integrar esta plataforma diretamente em implementações baseadas em Rubin, posicionando-a como elemento central de infraestrutura de IA turnkey, ao invés de uma adição secundária.
DGX SuperPOD (Edição Vera Rubin): O Modelo de Fábrica para Inferência de Custo Ótimo
O DGX SuperPOD serve como arquitetura de referência da NVIDIA para implantação de inferência de IA em grande escala. Construído com oito sistemas DGX Vera Rubin NVL72, aproveita NVLink 6 para extensão vertical de rede, Spectrum-X Ethernet para escalabilidade horizontal e a Plataforma de Armazenamento de Memória de Contexto de Inferência para orquestração de contexto. Toda a pilha é gerenciada pelo software NVIDIA Mission Control.
O resultado: em comparação com a infraestrutura da era Blackwell, treinar modelos MoE de escala equivalente requer 1/4 do número de GPUs, e os custos por token para inferência de grandes MoE caem para 1/10. Para provedores de nuvem e empresas, isto representa uma alavanca econômica massiva—a mesma carga de trabalho processada com muito menos GPUs, gerando economias de infraestrutura na casa dos bilhões de dólares em escala.
Nemotron, Blueprints e Aceleração Open-Source: Construindo Sistemas de IA Multi-Modelo, Multi-Nuvem
Paralelamente aos anúncios de hardware, a NVIDIA anunciou sua maior expansão de código aberto até hoje. Em 2025, a empresa contribuiu com 650 modelos open-source e 250 conjuntos de dados open-source para o Hugging Face, tornando-se o maior contribuinte da plataforma. Métricas convencionais mostram que o uso de modelos open-source cresceu 20 vezes no último ano, representando aproximadamente 25% de todos os tokens de inferência.
A empresa está expandindo a família Nemotron com novos modelos: sistemas Agentic RAG, modelos de segurança especializados e modelos de fala voltados para aplicações multimodais de IA. Criticamente, a NVIDIA está entregando estes não como modelos isolados, mas como componentes dentro de uma estrutura maior chamada Blueprints.
Blueprints incorpora uma visão arquitetural chave que Jensen Huang derivou ao observar Perplexity e plataformas de IA em estágio inicial: IA agentic de nível de produção é inerentemente multi-modelo, multi-nuvem e híbrida por natureza. A estrutura permite aos desenvolvedores:
Estas capacidades, que antes eram ficção científica, agora estão acessíveis a desenvolvedores através da integração SaaS da NVIDIA com Blueprints. Implementações similares estão surgindo em plataformas empresariais como ServiceNow e Snowflake, sinalizando uma mudança para o pensamento a nível de sistemas na IA empresarial.
A implicação estratégica: a NVIDIA está democratizando simultaneamente o acesso às fronteiras da IA enquanto enraíza seus ecossistemas de software como padrão de fato para a construção de agentes de IA.
IA Física: Da Simulação à Realidade—Alpha-Mayo e o Ponto de Inflexão em Robótica
Após infraestrutura e modelos abertos, Huang pivotou para o que ele definiu como a fronteira definidora: IA física—sistemas que percebem o mundo físico, raciocinam sobre ele e geram ações diretamente. A transição espelha as eras anteriores da IA: IA perceptual, IA generativa, IA agentic. A IA física representa o estágio onde a inteligência entra em sistemas incorporados.
Huang delineou uma arquitetura de três computadores para o desenvolvimento de IA física:
O modelo fundamental que sustenta esta pilha é o Cosmos World Foundation Model, que alinha linguagem, imagens, geometria 3D e leis físicas para suportar toda a cadeia desde a simulação até a implantação ao vivo.
Alpha-Mayo: Condução Autónoma como Ponta de Lança
A condução autónoma representa a primeira janela de implantação em grande escala para IA física. A NVIDIA lançou o Alpha-Mayo, um sistema completo composto por modelos open-source, ferramentas de simulação e conjuntos de dados para o desenvolvimento de condução autónoma de Nível 4.
Alpha-Mayo opera com um paradigma baseado em raciocínio, ao invés de comportamento aprendido puro de ponta a ponta. O modelo de 10 bilhões de parâmetros divide problemas em passos discretos, raciocina sobre possibilidades e escolhe a trajetória mais segura. Esta arquitetura permite que veículos lidem com casos extremos inéditos—como falhas em semáforos em cruzamentos movimentados—aplicando raciocínio aprendido ao invés de padrões memorizados.
Em implantação real, o sistema aceita prompts de texto, feeds de câmeras de visão periférica, histórico de estado do veículo e entrada de navegação, produzindo tanto uma trajetória de condução quanto uma explicação em linguagem natural do raciocínio. Esta transparência é fundamental para certificação regulatória e confiança do passageiro.
Mercedes-Benz CLA: A NVIDIA confirmou que o novo Mercedes-Benz CLA, alimentado por Alpha-Mayo, já está em produção e recentemente obteve a maior classificação de segurança do NCAP (Novo Programa de Avaliação de Carros). O veículo oferece condução mãos-livres em autoestrada e navegação urbana autônoma de ponta a ponta, com capacidades aprimoradas chegando ao mercado dos EUA ainda em 2026. Cada linha de código, chip e componente do sistema passou por certificação formal de segurança.
A NVIDIA também lançou:
Parcerias em Robótica e Integração Industrial
Para além do transporte, a NVIDIA anunciou colaborações amplas em robótica. Empresas líderes—Boston Dynamics, Franka Robotics, Surgical, LG Electronics, NEURA, XRLabs e Logic Robotics—estão construindo sistemas na plataforma de simulação e desenvolvimento Isaac ( e no modelo de fundação para robótica GR00T ).
Além disso, a NVIDIA revelou uma parceria estratégica com a Siemens. A colaboração integra bibliotecas CUDA-X, modelos de IA e gêmeos digitais do Omniverse nas ferramentas EDA, CAE e de gêmeos digitais da Siemens. Isso posiciona a IA física ao longo de todo o ciclo de vida, desde o design e simulação até às operações de manufatura e implantação no mundo real.
A Estratégia: Velocidade Open Source Encontra o Encerramento de Hardware
A keynote de 1,5 horas cristalizou a estratégia dupla da NVIDIA rumo à era da inferência. Por um lado, a empresa está a abrir modelos, conjuntos de dados e ferramentas de desenvolvimento de forma agressiva. Por outro, está a tornar seu hardware, interconexões e designs de sistema cada vez mais insubstituíveis através de uma profunda co-otimização.
Isto cria um ciclo virtuoso:
A filosofia de design a nível de sistema—desde os interconectores NVLink 6 até à Plataforma de Armazenamento de Memória de Contexto de Inferência—torna difícil para os concorrentes replicarem a vantagem de custo total de propriedade da NVIDIA. O que parece ser a NVIDIA “abrindo-se” via Nemotron e Blueprints na verdade reforça a sua cerca, tornando a sua plataforma a escolha óbvia para desenvolvedores de IA que procuram tanto flexibilidade quanto desempenho.
À medida que a indústria de IA transita de cargas de trabalho dominadas por treino para cargas dominadas por inferência, esta estratégia de ciclo fechado de expansão contínua de procura, redução de custo por token e encerramento de infraestrutura está a ampliar a vantagem económica da NVIDIA para níveis que podem ser intransponíveis para concorrentes que tentem ganhar tração nas eras da inferência e da IA física.