Discurso completo de Jensen Huang na GTC: A era da inferência chegou, receita de pelo menos 1 trilião de dólares em 2027, a lagosta é o novo sistema operacional

16 de março de 2026, a conferência NVIDIA GTC 2026 abriu oficialmente, com o fundador e CEO Jensen Huang a fazer o discurso principal.

Nesta conferência, considerada a “peregrinação anual da indústria de IA”, Jensen Huang explicou a transformação da NVIDIA de uma “empresa de chips” para uma “empresa de infraestrutura e fábricas de IA”. Frente às principais preocupações do mercado sobre a sustentabilidade de desempenho e potencial de crescimento, Jensen detalhou a lógica de negócios subjacente que impulsiona o crescimento futuro — a “Economia das Fábricas de Tokens”.

Orientação de desempenho extremamente otimista, “demanda de pelo menos 1 trilhão de dólares até 2027”

Nos últimos dois anos, a demanda global por computação de IA explodiu exponencialmente. À medida que os grandes modelos evoluíram de “percepção” e “geração” para “raciocínio” e “execução de tarefas”, o consumo de poder de processamento aumentou drasticamente. Em relação ao limite de pedidos e receitas, Jensen Huang apresentou expectativas muito fortes.

Durante o discurso, Jensen afirmou:

No ano passado, mencionei que víamos uma demanda de alta confiança de 500 bilhões de dólares, cobrindo Blackwell e Rubin até 2026. Agora, neste exato momento, vejo uma demanda de pelo menos 1 trilhão de dólares até 2027.

A previsão de Jensen de um trilhão de dólares impulsionou temporariamente as ações da NVIDIA a subir mais de 4,3%.

Além disso, ele complementou:

Isso é razoável? É exatamente isso que vou explicar. Na verdade, nossa oferta será até insuficiente. Tenho certeza de que a demanda real por computação será muito maior do que isso.

Jensen Huang destacou que os sistemas atuais da NVIDIA já provaram ser a infraestrutura de menor custo globalmente. Como a NVIDIA consegue rodar quase todos os modelos de IA em diversos setores, essa versatilidade permite que o investimento de 1 trilhão de dólares dos clientes seja plenamente aproveitado e mantenha uma longa vida útil.

Atualmente, 60% dos negócios da NVIDIA vêm dos cinco maiores provedores de nuvem de grande porte, enquanto os outros 40% estão amplamente distribuídos por nuvens soberanas, empresas, indústrias, robótica e computação de borda.

Economia das fábricas de tokens, desempenho por watt decide o destino do negócio

Para explicar a razoabilidade dessa demanda de 1 trilhão de dólares, Jensen Huang apresentou uma nova mentalidade de negócios para CEOs globais. Ele apontou que, no futuro, os data centers não serão mais armazéns de arquivos, mas “fábricas de tokens” (unidades básicas geradas por IA).

Jensen enfatizou:

Cada data center, cada fábrica, por definição, é limitado por energia. Uma fábrica de 1 GW (gigawatt) nunca se tornará de 2 GW — isso é uma lei física e atômica. Com potência fixa, quem tiver maior throughput de tokens por watt terá menor custo de produção.

Ele dividiu os serviços de IA do futuro em quatro níveis comerciais:

  • Camada gratuita (alto throughput, baixa velocidade)
  • Camada intermediária (~US$3 por milhão de tokens)
  • Camada avançada (~US$6 por milhão de tokens)
  • Camada de alta velocidade (~US$45 por milhão de tokens)
  • Camada ultra-rápida (~US$150 por milhão de tokens)

Ele destacou que, à medida que os modelos aumentam de tamanho e o contexto se alonga, a IA fica mais inteligente, mas a taxa de geração de tokens diminui. Jensen afirmou:

Dentro desta fábrica de tokens, seu throughput e velocidade de geração de tokens se transformarão diretamente na sua receita exata no próximo ano.

Jensen Huang reforçou que a arquitetura da NVIDIA permite que clientes atinjam throughput extremamente alto na camada gratuita, enquanto na camada de inferência de maior valor, o desempenho pode ser aumentado em até 35 vezes.


Vera Rubin alcança 350 vezes de aceleração em dois anos, Groq preenche a velocidade de inferência máxima

Sob as limitações físicas, a NVIDIA apresentou seu sistema de IA mais complexo até hoje, Vera Rubin. Jensen Huang declarou:

Quando mencionei Hopper, levantava um chip, era fofo. Mas ao falar de Vera Rubin, as pessoas pensam no sistema completo. Nesse sistema totalmente líquido, que elimina cabos tradicionais, racks que levavam dois dias para serem instalados agora levam apenas duas horas.

Ele explicou que, por meio de um design extremo de hardware e software integrados, Vera Rubin criou avanços surpreendentes dentro de um data center de 1 GW:

Em apenas dois anos, elevamos a taxa de geração de tokens de 22 milhões para 700 milhões por segundo, um crescimento de 350 vezes. A Lei de Moore, nesse período, só trouxe cerca de 1,5 vezes de melhoria.

Para resolver o gargalo de largura de banda na inferência de alta velocidade (como 1000 tokens/segundo), a NVIDIA apresentou a solução final ao adquirir a Groq: inferência assimétrica e separada. Jensen explicou:

Esses dois processadores têm características distintas. A chip Groq possui 500MB de SRAM, enquanto um chip Rubin tem 288GB de memória.


Jensen Huang destacou que, usando o sistema Dynamo de software, a NVIDIA delega a fase de “pré-carregamento” (Pre-fill) que exige muita computação e memória KV ao Vera Rubin, enquanto a fase de “decodificação” (que é altamente sensível à latência) fica a cargo do Groq. Ele também deu recomendações para a configuração de capacidade computacional empresarial:

Se seu trabalho é principalmente alto throughput, use 100% Vera Rubin; se precisar gerar muitos tokens de alto valor, reserve cerca de 25% do data center para Groq.

Foi divulgado que o chip LP30 da Groq, fabricado pela Samsung, já está em produção, com entregas previstas para o terceiro trimestre, e o primeiro rack Vera Rubin já opera na nuvem Azure da Microsoft.

Além disso, Jensen apresentou a tecnologia de interconexão óptica, exibindo o switch Spectrum X, o primeiro de produção em massa de troca de pacotes ópticos (CPO), e acalmou as preocupações do mercado sobre a substituição do cobre pela fibra óptica:

Precisamos de mais capacidade de cabos de cobre, mais chips ópticos e mais capacidade de CPO.

Agent: o fim do SaaS tradicional, “salário + token” torna-se padrão no Vale do Silício

Além das barreiras de hardware, Jensen dedicou bastante tempo à revolução do software de IA e do ecossistema, especialmente com o surgimento de agentes inteligentes.

Ele descreveu o projeto de código aberto OpenClaw como “o projeto open source mais popular da história”, afirmando que em poucas semanas superou as realizações do Linux em 30 anos. Jensen declarou que, na essência, OpenClaw é o “sistema operacional” para computadores de agentes.

Ele afirmou:

Cada empresa de SaaS se tornará uma empresa de AaaS (Agent-as-a-Service, agentes como serviço). Para garantir a implementação segura de agentes capazes de acessar dados sensíveis e executar códigos, a NVIDIA lançou o design de referência empresarial NeMo Claw, que inclui um motor de políticas e roteador de privacidade.

Para os profissionais comuns, essa transformação também está próxima. Jensen descreveu o futuro do trabalho:

No futuro, cada engenheiro da nossa empresa terá um orçamento anual de tokens. Seu salário base pode ser de dezenas de milhares de dólares, e eu reservarei cerca de metade desse valor em tokens para eles, multiplicando sua eficiência por 10. Essa já é uma nova estratégia de contratação no Vale do Silício: quanto de tokens vem no seu pacote de oferta?

Na conclusão, Jensen também “vazou” detalhes da próxima arquitetura de computação, Feynman, que permitirá a expansão conjunta de cabos de cobre e CPO. Ainda mais, a NVIDIA está desenvolvendo um data center espacial, o “Vera Rubin Space-1”, que abrirá possibilidades de extensão do poder de IA além da Terra.

Transcrição completa do discurso de Jensen Huang na GTC 2026 (com auxílio de ferramentas de IA):

Moderador: Bem-vindo ao palco Jensen Huang, fundador e CEO da NVIDIA.

Jensen Huang, fundador e CEO:
Bem-vindos à GTC. Gostaria de lembrar que esta é uma conferência tecnológica. É um prazer ver tantas pessoas na fila cedo de manhã, e estar com vocês aqui.

Na GTC, focaremos em três temas principais: tecnologia, plataforma e ecossistema. A NVIDIA atualmente possui três plataformas principais: a plataforma CUDA-X, a plataforma de sistemas e nossa mais recente plataforma de fábricas de IA.

Antes de começar, quero agradecer aos nossos anfitriões do pré-evento — Sarah Guo, da Conviction, Alfred Lin, da Sequoia Capital (nosso primeiro investidor de risco), e Gavin Baker, nosso primeiro grande investidor institucional. Essas pessoas têm insights profundos em tecnologia e grande influência no ecossistema. Também agradeço aos convidados especiais que convidei pessoalmente para estar aqui. Uma equipe de estrelas.

Agradeço também às empresas presentes. A NVIDIA é uma plataforma, com tecnologia, plataformas e um ecossistema rico. Os representantes aqui representam quase todos os participantes de uma indústria avaliada em 100 trilhões de dólares. São 450 empresas patrocinando este evento, meu agradecimento.

Este evento terá 1.000 fóruns técnicos e 2.000 palestrantes, cobrindo cada nível da arquitetura de “cinco camadas” da IA — desde infraestrutura básica (terras, energia, data centers) até chips, plataformas, modelos e aplicações que impulsionam toda a indústria.

CUDA: vinte anos de inovação

Tudo começa aqui. Este ano marca o 20º aniversário do CUDA.

Por vinte anos, trabalhamos na arquitetura CUDA. Uma invenção revolucionária — a tecnologia SIMT (Single Instruction Multiple Threads) permite que desenvolvedores escrevam código escalar e o expandam para aplicações multithread, com uma complexidade muito menor do que as arquiteturas SIMD anteriores. Recentemente, adicionamos o recurso Tiles, facilitando a programação de Tensor Cores e operações matemáticas essenciais à IA. Hoje, o CUDA possui milhares de ferramentas, compiladores, frameworks e bibliotecas, com centenas de milhares de projetos de código aberto, profundamente integrados em todos os ecossistemas tecnológicos.

Este gráfico revela toda a estratégia da NVIDIA — sempre falei dele. O elemento mais difícil e central é a “instalação” no fundo do gráfico. Após vinte anos, acumulamos centenas de milhões de GPUs e sistemas de computação rodando CUDA globalmente.

Nossas GPUs cobrem todas as nuvens, atendendo quase todos os fabricantes e setores. Essa vasta instalação é a força motriz do ciclo de inovação: atrai desenvolvedores, que criam novos algoritmos, que geram novos mercados, que atraem mais empresas, ampliando ainda mais a instalação — esse ciclo está acelerando.

As instalações da NVIDIA estão crescendo rapidamente, impulsionando nossa plataforma de computação para suportar aplicações e avanços contínuos.

Mais importante, isso dá uma vida útil longa a esses sistemas. Porque aplicações na plataforma CUDA são extremamente diversas — de IA, processamento de dados, simulações científicas, até pesquisa de física fundamental. Uma vez instalado, o valor é alto. É por isso que, mesmo há seis anos, GPUs Ampere ainda têm preços crescentes na nuvem.

Tudo isso graças ao grande volume de instalações, ao ciclo de inovação e ao ecossistema de desenvolvedores. Quando esses fatores se combinam com atualizações contínuas de software, os custos de computação caem. Acelerando o desempenho, melhorando algoritmos, podemos oferecer melhorias de custo e desempenho ao longo do tempo, beneficiando todos. Nosso compromisso é suportar cada GPU a longo prazo, garantindo compatibilidade e valor duradouro.

Essa estratégia faz com que cada nova geração beneficie milhões de usuários, criando um ciclo de crescimento e redução de custos. O CUDA é o coração de tudo isso.

De GeForce a CUDA: 25 anos de evolução

Nossa jornada com CUDA começou há 25 anos.

GeForce — muitos aqui cresceram com ela. Foi nosso maior sucesso de marketing. Desde o início, cultivamos futuros clientes — seus pais compraram nossos produtos antes de vocês, e vocês cresceram para se tornar cientistas de computação, clientes e desenvolvedores.

Essa base foi construída há 25 anos com a invenção do shader programável — uma inovação simples, mas profunda, que tornou aceleradores programáveis, a pixel shader, a primeira GPU programável. Quatro anos depois, criamos o CUDA — um dos maiores investimentos da NVIDIA. Na época, com recursos limitados, investimos grande parte dos lucros nisso, estendendo CUDA de GeForce para todas as PCs. Acreditávamos no potencial, e persistimos por 13 gerações, 20 anos, até que CUDA se tornou onipresente.

O pixel shader revolucionou a GeForce. Há cerca de oito anos, lançamos a arquitetura RTX, que renovou completamente o pipeline gráfico moderno. GeForce levou CUDA ao mundo, e isso inspirou pesquisadores como Krizhevsky, Sutskever, Hinton e Ng a perceberem que GPUs poderiam acelerar deep learning, desencadeando a explosão de IA há uma década.

Dez anos atrás, fundimos o shader programável com duas ideias: ray tracing por hardware, e uma visão de que IA transformaria radicalmente a computação gráfica. Assim como GeForce trouxe IA ao mundo, agora a IA está de volta para transformar a própria computação gráfica.

Hoje, apresento nossa próxima geração: Neural Rendering — a fusão profunda de gráficos 3D e IA. Veja o DLSS 5.

Renderização Neural: a fusão de dados estruturados e IA generativa

Impressionante, não? Os gráficos ganham nova vida.

O que fizemos? Combinamos gráficos 3D controláveis (fundação do mundo virtual) com dados estruturados, IA generativa e cálculo probabilístico. Uma abordagem determinística, outra probabilística, ambas integradas, permitindo controle preciso e geração em tempo real. Assim, o conteúdo fica bonito, impressionante e totalmente controlável.

Essa fusão de dados estruturados e IA generativa será aplicada em diversos setores. Dados estruturados são a base para IA confiável.

Plataforma acelerada para dados estruturados e não estruturados

Agora, uma visão técnica.

Dados estruturados — SQL, Spark, Pandas, Velox, Snowflake, Databricks, EMR, Azure Data Factory, BigQuery — todos lidam com DataFrames, como planilhas gigantes, que representam a verdade fundamental dos negócios.

Na era da IA, precisamos que a IA acesse esses dados estruturados com máxima velocidade. Antes, acelerávamos esse processamento para eficiência empresarial. Agora, a IA usará esses dados em velocidades muito superiores, com agentes inteligentes acessando bancos de dados estruturados em escala.

Quanto aos dados não estruturados — vetores, PDFs, vídeos, áudios — representam cerca de 90% dos dados gerados anualmente. Antes, eram quase inúteis: apenas armazenados, sem fácil consulta ou indexação, pois careciam de entendimento de significado e contexto. Agora, com IA multimodal, podemos ler PDFs, entender seu conteúdo e integrá-los a estruturas de consulta.

NVIDIA criou duas bibliotecas essenciais:

  • cuDF: aceleração de DataFrames e dados estruturados
  • cuVS: armazenamento vetorial, dados semânticos e não estruturados

Essas plataformas serão fundamentais no futuro.

Já firmamos parcerias com várias empresas. IBM usará cuDF para acelerar o WatsonX Data. Dell criou uma plataforma de dados AI com cuDF e cuVS, com melhorias de desempenho em projetos reais da NTT Data. Google Cloud acelera Vertex AI e BigQuery, e colaborou com Snapchat para reduzir custos em 80%.

Os benefícios do computing acelerado são velocidade, escala e custo. Seguindo a lógica de Moore, aceleramos o desempenho, otimizamos algoritmos e reduzimos custos continuamente.

NVIDIA construiu uma plataforma de computação acelerada, com bibliotecas como RTX, cuDF, cuVS, integradas a provedores de nuvem e OEMs, alcançando usuários globais.

Parcerias profundas com provedores de nuvem

Com os principais provedores de nuvem:

Google Cloud: aceleramos Vertex AI e BigQuery, com integração profunda com JAX/XLA, e desempenho superior no PyTorch — somos o único acelerador que funciona bem em ambos. Levamos clientes como Base10, CrowdStrike, Puma, Salesforce ao ecossistema Google.

AWS: aceleramos EMR, SageMaker e Bedrock. Este ano, estou especialmente animado por levar o OpenAI ao AWS, impulsionando o consumo de nuvem, expansão regional e escala de computação.

Microsoft Azure: nosso supercomputador de 100 PFLOPS é o primeiro na Azure, base para parceria com OpenAI. Aceleramos Azure AI e AI Foundry, expandindo regiões, e colaboramos com Bing. Nossa capacidade de computação confidencial — que garante que nem operadoras possam ver dados ou modelos — é suportada por GPUs NVIDIA, as primeiras a oferecer essa segurança, permitindo implantação segura de modelos como OpenAI e Anthropic globalmente. Com a Synopsys, aceleramos fluxos de trabalho EDA e CAD, implantados na Azure.

Oracle: fomos o primeiro cliente de IA da Oracle, ajudando a explicar IA na nuvem. Desde então, colaboramos com Cohere, Fireworks, OpenAI e outros.

CoreWeave: a primeira nuvem nativa de IA, especializada em GPU, com forte crescimento.

Palantir + Dell: criaram uma nova plataforma de IA, baseada na Ontology Platform da Palantir, que permite implantação local de IA em qualquer país, ambiente isolado, com toda a pilha de computação — de vetorização a aceleração de IA.

NVIDIA e provedores de nuvem criaram uma ecologia de cooperação — levando clientes à nuvem, beneficiando todos.

Estratégia de integração vertical e abertura horizontal

NVIDIA é a primeira empresa globalmente a integrar verticalmente e abrir horizontalmente.

Essa abordagem é simples: computação acelerada não é só chip, nem sistema, é aplicação. CPUs aceleram toda a computação, mas há limites. Para avanços contínuos, só a aceleração específica de domínio ou aplicação traz melhorias de desempenho e custos.

Por isso, investimos profundamente em bibliotecas, setores e indústrias verticais. Somos uma empresa de computação verticalmente integrada, sem alternativa. Precisamos entender aplicações, domínios, algoritmos, e implantá-los em qualquer cenário — data center, nuvem, local, borda, robótica.

Ao mesmo tempo, somos abertos a integrações com parceiros, para que todos possam se beneficiar da aceleração.

A composição do público na GTC reflete isso. A maior parte é do setor financeiro — desenvolvedores, não traders. Nosso ecossistema cobre toda a cadeia de valor. Empresas com 50, 70 ou 150 anos tiveram seu melhor ano na história. Estamos no começo de algo muito grande.

CUDA-X: motores de aceleração por setor

Em cada setor, a NVIDIA já atua profundamente:

  • Veículos autônomos: amplo impacto
  • Serviços financeiros: de features manuais a deep learning, com momento Transformer
  • Saúde: chegando ao “momento ChatGPT”, com IA para descoberta de medicamentos, diagnósticos, suporte ao paciente
  • Indústria: maior onda de construção global, com fábricas de IA, chips, data centers
  • Entretenimento e jogos: plataformas em tempo real para tradução, streaming, interação, compras inteligentes
  • Robótica: mais de 110 robôs na feira, com três arquiteturas principais — treinamento, simulação, embarcado
  • Telecomunicações: setor de 2 trilhões de dólares, com estações base evoluindo para plataformas de IA de borda, como Aerial, com Nokia, T-Mobile

Todos esses setores usam as bibliotecas CUDA-X — o núcleo da NVIDIA como empresa de algoritmos. Essas bibliotecas são seu ativo mais importante, trazendo valor real ao sistema de computação.

Uma das mais importantes é a cuDNN, que revolucionou a IA e desencadeou a explosão moderna de AI.

(vídeo de demonstração do CUDA-X)

Tudo que vocês viram até agora é simulação — incluindo solucionadores físicos, modelos de agentes IA, robôs físicos. Tudo é simulado, sem animações manuais ou articulações fixas. Essa é a força da NVIDIA: entender profundamente algoritmos e plataformas, desbloqueando oportunidades.

Empresas nativas de IA e a nova era da computação

Vocês viram gigantes como Walmart, L’Oréal, JPMorgan, Roche, Toyota, além de muitas empresas desconhecidas — as chamadas empresas nativas de IA. Essa lista é enorme, incluindo OpenAI, Anthropic, e muitas startups de setores diversos.

Nos últimos dois anos, esse setor cresceu de forma extraordinária. Investimentos de risco atingiram US$ 150 bilhões — recorde na história. E o tamanho de cada rodada subiu de milhões para bilhões de dólares. Por quê? Porque, pela primeira vez, todas essas empresas precisam de muita computação e tokens. Estão criando, gerando tokens, valorizando tokens de Anthropic, OpenAI, etc.

Assim como PC, internet e mobile criaram empresas revolucionárias, essa nova plataforma de computação também gerará empresas influentes, que moldarão o futuro.

Três avanços históricos impulsionando tudo

O que aconteceu nos últimos dois anos? Três eventos principais:

  1. ChatGPT e a era da IA generativa (fim de 2022 a 2023)
  2. IA de raciocínio (Reasoning AI), com o modelo o1
  3. Claude Code, o primeiro agente inteligente

O GPT-4 e similares mudaram tudo: percepção, geração, raciocínio. A IA agora pode refletir, planejar, dividir problemas — confiável, baseada em informações reais, com maior capacidade de tokens e processamento.

Claude Code revolucionou o desenvolvimento de software: todos na NVIDIA usam alguma versão de Claude, Codex ou Cursor. Uma mudança de paradigma: não mais perguntar “o que é”, mas “crie, execute, construa”. IA agora faz, não só percebe.

Nos últimos dois anos, o processamento de raciocínio cresceu 10.000 vezes, o uso, 100 vezes. A demanda por computação cresceu 1 milhão de vezes. Se aumentarmos mais a capacidade, geraremos mais tokens, mais receita, IA mais inteligente. O ponto de inflexão chegou.

Era da infraestrutura de IA de um trilhão de dólares

No ano passado, confiava-se em uma demanda de US$ 500 bilhões até 2026, baseada em Blackwell e Rubin. Hoje, um ano depois, vejo pelo menos US$ 1 trilhão até 2027 — e tenho certeza de que a demanda real será ainda maior.

2025: o ano da inferência na NVIDIA

2025 será o “Ano da Inferência” da NVIDIA. Queremos que toda a vida útil do IA — treinamento, pós-treinamento, inferência — seja de alta performance, com infraestrutura duradoura e custo decrescente.

Além disso, Anthropic e Meta se juntaram à plataforma NVIDIA, representando um terço da demanda global de IA. Modelos de código aberto estão cada vez mais avançados, presentes em todos os lugares.

A NVIDIA é a única plataforma capaz de rodar todos os tipos de IA — linguística, biológica, gráfica, visão, fala, proteínas, química, robótica — em qualquer ambiente, na borda ou na nuvem, em qualquer idioma. Essa universalidade faz da NVIDIA a plataforma de menor custo e maior confiança.

Atualmente, 60% do negócio vem dos cinco maiores provedores de nuvem, os outros 40% de nuvens regionais, empresas, indústrias, robótica, borda. Essa abrangência é sua força — uma revolução na plataforma de computação.

Grace Blackwell e NVLink 72: uma inovação radical

Quando Hopper ainda estava no auge, decidimos reestruturar completamente o sistema, expandindo NVLink de 8 para 72 vias, e redesenhando toda a arquitetura. O Grace Blackwell NVLink 72 é uma aposta enorme, que exige esforço de todos os parceiros. Agradeço a todos.

Também lançamos o NVFP4 — uma nova classe de núcleos tensor e unidades de cálculo, que podem fazer inferência sem perda de precisão, com grande eficiência. Demonstramos que o NVFP4 funciona para inferência e treinamento. Investimos bilhões na construção de um supercomputador, DGX Cloud, para otimizar kernels.

Os resultados são impressionantes: dados do Semi Analysis — a avaliação mais completa de desempenho de inferência — mostram que a NVIDIA lidera em eficiência por watt e custo por token. Enquanto a Lei de Moore previa só 1,5x de melhoria, conseguimos 35x. Dylan Patel, do Semi Analysis, disse: “Jensen foi conservador, na verdade é 50x.” E está certo.

Nosso custo por token é o mais baixo do mundo, graças ao co-design extremo.

Como exemplo, o Fireworks, antes gerando cerca de 700 tokens por segundo, agora chega a quase 5.000 — um aumento de 7x. Essa é a força do co-design.

Fábrica de IA: de data center a fábrica de tokens

Data centers de hoje eram armazéns de arquivos, agora são fábricas de tokens. Cada provedor, cada IA, usará “eficiência de fábrica de tokens” como métrica principal.

Meu argumento:

  • Eixo vertical: throughput — tokens por segundo em potência fixa
  • Eixo horizontal: velocidade de interação — resposta por inferência, quanto mais rápido, maior o modelo e o contexto, mais inteligente a IA

Tokens são a nova commodity. Quando maduras, terão preços escalonados:

  • Camada gratuita (alto throughput, baixa velocidade)
  • Camada intermediária (~US$3 por milhão de tokens)
  • Camada avançada (~US$6 por milhão de tokens)
  • Camada de alta velocidade (~US$45 por milhão de tokens)
  • Camada ultra-rápida (~US$150 por milhão de tokens)

Comparado ao Hopper, o Grace Blackwell aumenta o throughput na camada de maior valor em 35 vezes, com novas camadas. Com uma estimativa simplificada, 25% de potência em cada camada gera 5x mais receita que Hopper.

Vera Rubin: a próxima geração de sistema de IA

(vídeo de apresentação do Vera Rubin)

Vera Rubin é um sistema completo, otimizado para agentes inteligentes:

  • Núcleo de IA de grande escala: cluster de GPUs NVLink 72, para pré-carregamento e KV Cache
  • Novo CPU Vera: otimizado para alta performance single-thread, com LPDDR5, eficiência energética, único no mundo com essa memória para data centers
  • Sistema de armazenamento: BlueField 4 + CX 9, nova plataforma de armazenamento para IA, com participação de todos os players
  • Switch Spectrum X CPO: o primeiro switch óptico em massa, de alta performance
  • Rack Kyber: sistema que suporta 144 GPUs em um único NVLink, com front-end de computação e back-end de troca NVLink
  • Rubin Ultra: nova geração de supercomputadores, com design vertical, maior escala de NVLink

Vera Rubin é totalmente líquido, instalação em duas horas, resfriada com água a 45°C, reduzindo a carga de resfriamento do data center. Satya Nadella confirmou que a primeira rack Vera Rubin já opera na Azure, o que é uma grande conquista.

Integração Groq: extensão máxima de desempenho de inferência

Adquirimos a equipe Groq e licenciamos sua tecnologia. Groq é um processador de fluxo de dados determinístico, com compilação estática e baixa latência, otimizado para inferência de carga única, com velocidade de tokens muito alta.

Mas seu limite é a memória — apenas 500MB de SRAM on-chip, insuficiente para grandes modelos. A solução é o sistema Dynamo, que desacopla a inferência:

  • Pré-carregamento e atenção na Vera Rubin
  • Decodificação de redes feed-forward na Groq

Essas unidades se conectam por Ethernet, com modos especiais que reduzem a latência pela metade. Com o Dynamo, a performance aumenta 35x, atingindo novos níveis de inferência.

Recomendações de uso:

  • Alta taxa de throughput: 100% Vera Rubin
  • Alta geração de tokens de valor: 25% Groq + 75% Vera Rubin

O chip LP30 da Groq, fabricado pela Samsung, já está em produção, com entregas no Q3. Agradeço à Samsung pelo apoio.

Salto histórico na inferência

Em dois anos, a taxa de geração de tokens de uma fábrica de 1 GW passou de 22 milhões para 700 milhões por segundo — 350x de aumento. Isso é o poder do co-design extremo.

Roteiro de tecnologia

  • Blackwell: em produção, sistema Oberon, NVLink 72, opcional NVLink 576
  • Vera Rubin (atual): rack Kyber, NVLink 144 (cobre); Oberon com NVLink 72 + fibra; Spectrum 6, switch óptico massivo
  • Vera Rubin Ultra (próximo): novo chip LP35, maior desempenho
  • Feynman (futuro): novo GPU LP40, com NVFP4, novo CPU Rosa, BlueField 5, CX 10, suporte a cobre e fibra

As rotas de expansão são paralelas: cobre, fibra, CPO. Precisamos de mais produção em todos esses aspectos.

NVIDIA DSX: plataforma digital de gêmeos de fábricas de IA

As fábricas de IA estão se tornando complexas, mas os fornecedores de tecnologia não colaboraram na fase de projeto. Para resolver isso, criamos o Omniverse e a plataforma NVIDIA DSX, que permite que parceiros projetem e operem fábricas de IA em escala de gigavatts no mundo virtual. A DSX oferece:

  • Simulação de racks, térmica, elétrica, rede
  • Conexão com a rede elétrica, para coordenação de energia
  • Otimização de consumo e resfriamento em data centers

Estimamos que esse sistema pode dobrar a eficiência energética. O Omniverse, que começou com o “globo digital”, suportará os maiores gêmeos digitais da história, construindo a maior supercomputação do mundo.

Além disso, a NVIDIA está entrando no espaço. O chip Thor foi certificado para radiação, e está em satélites. Estamos desenvolvendo Vera Rubin Space-1, para data centers no espaço. O desafio é o resfriamento por radiação, e estamos reunindo engenheiros top para resolver.

OpenClaw: o sistema operacional da era dos agentes

Peter Steinberger criou o OpenClaw, o projeto open source mais popular da história, que em semanas superou o Linux em 30 anos.

OpenClaw é um sistema de agentes (Agentic System), que gerencia recursos, acessa ferramentas, arquivos, grandes modelos de linguagem, executa tarefas, divide problemas e chama sub-agentes. Suporta múltiplos modos de entrada e saída (voz, vídeo, texto, email).

Como um sistema operacional, é o “sistema operacional” para computadores de agentes — uma revolução. Assim como Windows tornou computadores pessoais possíveis, OpenClaw torna agentes inteligentes possíveis.

Cada empresa precisará de sua estratégia OpenClaw, assim como Linux, HTML, Kubernetes.

Reinvenção do TI empresarial

Antes, TI era armazenamento de dados e arquivos, com ferramentas e fluxos de trabalho. Empresas criavam ferramentas, integradores ajudavam a usar.

Depois, cada SaaS será uma AaaS (Agentic as a Service), oferecendo agentes especializados, com controle de segurança, privacidade, políticas.

O desafio é que agentes internos acessam dados sensíveis, executam códigos, comunicam-se com o exterior — tudo precisa de controle rigoroso.

Por isso, colaboramos com Peter, lançando:

  • NeMo Claw: referência empresarial baseada em OpenClaw, com ferramentas NVIDIA
  • Open Shield: camada de segurança, políticas, privacidade
  • NeMo Cloud: disponível para download, integrado a estratégias de SaaS

Essa é a revolução do TI, que passa de US$ 2 trilhões para dezenas de trilhões, mudando de ferramentas para serviços de agentes especializados.

Posso prever: cada engenheiro terá um orçamento anual de tokens. Seu salário pode ser dezenas de milhares de dólares, e uma parte será em tokens, multiplicando sua produtividade por 10. “Tokens no pacote de contratação” virou uma nova estratégia de recrutamento no Vale.

Cada empresa será tanto consumidora quanto produtora de tokens — como HTML e Linux, OpenClaw é fundamental.

Iniciativa de modelos abertos da NVIDIA

Para agentes personalizados, oferecemos modelos avançados NVIDIA:

Nemotron, Cosmos, GROOT, Alpamayo, BioNeMo, Phys-AI

Estamos na vanguarda de cada setor, com planos de evoluir esses modelos — Nemotron 4, Cosmos 2, Groq de segunda geração.

Nemotron 3 é um dos melhores modelos globais, e Nemotron Ultra será o mais forte, apoiando AI soberana de vários países.

Anunciamos a criação da Aliança Nemotron, com investimentos de bilhões, incluindo BlackForest, Cursor, LangChain, Mistral, Perplexity, Reflection, Sarvam, Thinking Machines. Empresas de software integrarão nossos modelos e ferramentas em seus produtos.

IA física e robótica

Agentes digitais atuam no mundo virtual — escrevem código, analisam dados; IA física é robô, com corpo.

Na GTC, apresentamos 110 robôs, de quase todas as empresas do setor. A NVIDIA fornece três plataformas — treinamento, simulação, embarcado — e modelos de IA.

No automotivo, o “momento ChatGPT” chegou. Anunciamos quatro novos parceiros na plataforma RoboTaxi da NVIDIA: BYD, Hyundai, Nissan, Geely, com produção anual de 18 milhões de veículos. Com Mercedes, Toyota, GM, a frota cresce. Também fechamos parceria com Uber para implantar veículos RoboTaxi em várias cidades.

Na indústria, empresas como ABB, Universal Robotics, KUKA colaboram para levar robôs às fábricas.

No telecom, a Caterpillar e a T-Mobile também estão na lista. Futuramente, estações base serão plataformas de IA de borda, como Aerial, com Nokia, T-Mobile.

Destaque: robô Olaf na feira

(vídeo de demonstração do Olaf)

Jensen Huang: Snowman na área! Newton funcionando! Omniverse também! Olaf, tudo bem?

Olaf: Muito feliz em te ver.

Jensen Huang: Claro, porque te dei um computador — Jetson!

Olaf: O que é isso?

Jensen Huang: Dentro de você.

Olaf: Que incrível!

Jensen Huang: Você aprendeu a andar no Omniverse.

Olaf: Eu gosto de andar. É muito melhor do que montar rena e olhar o céu.

Jensen Huang: É por causa da simulação física — o solucionador Newton, rodando no NVIDIA Warp, desenvolvido em parceria com Disney e DeepMind, que te permite se adaptar ao mundo real.

Olaf: Era exatamente isso que ia dizer.

Jensen Huang: Essa é sua inteligência. Sou um boneco de neve, não uma bola de neve.

Jensen Huang: Você consegue imaginar? O futuro do Disney World — todos esses personagens de robô passeando livremente. Mas, para ser honesto, achei que você fosse mais alto. Nunca vi um boneco de neve tão baixo.

Olaf: (sem comentário)

Jensen Huang: Pode me ajudar a encerrar a palestra?

Olaf: Com certeza!

Resumo do discurso principal

Jensen Huang: Hoje, discutimos os seguintes temas centrais:

  1. Chegada do ponto de inflex
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar