2026 年 CES de eletrónica de consumo, o CEO da NVIDIA, Huang Renxun, anunciou oficialmente a entrada em produção em massa do Vera Rubin, marcando um ponto de viragem crucial na história do desenvolvimento da inteligência artificial (IA): do início da IA generativa centrada no treino de modelos, para uma era dominada por IA agentic e inferência em larga escala.
(Huang Renxun CES define 2026: Vera Rubin em produção total, veículos autónomos de IA a serem lançados no Q1, processos-chave provenientes da TSMC)
Este relatório irá aprofundar como esta mudança tecnológica está a remodelar a camada de hardware dos centros de dados, especialmente a camada de armazenamento G3.5 e a plataforma de memória de inferência (ICMS). Nesse contexto, os quatro maiores gigantes globais de memória e armazenamento — SK Hynix, Samsung Electronics, Micron Technology e SanDisk — enfrentam oportunidades e desafios sem precedentes.
O que são HBM, DRAM e NAND? Análise de termos de memória
Antes de entrar no conteúdo principal, vamos esclarecer os termos com uma descrição simples:
Explicação acessível de termos de memória: HBM (incluindo HBM3E, HBM4, HBM5)
HBM significa High Bandwidth Memory (Memória de alto rendimento). Pode imaginar-se como várias camadas de chips de DRAM empilhadas como um bolo de camadas, conectadas ao GPU por muitas autoestradas de alta velocidade, permitindo uma transferência de dados extremamente rápida.
HBM3E: atualmente a principal, usada na última geração de GPUs, com alta velocidade e consumo de energia controlado.
HBM4: próxima geração, destinada a GPUs mais potentes como Vera Rubin, com maior largura de banda e capacidade.
HBM5: a próxima geração (planeada), com velocidades e capacidades ainda maiores, preparando-se para modelos futuros mais grandes.
Ao lado do GPU Rubin, muitas unidades HBM empilhadas serão colocadas, permitindo que o GPU acesse dados a uma velocidade ultra-rápida. O núcleo de treino e inferência de IA depende totalmente do HBM para fornecer dados, sendo a maior estrela nesta escassez de fornecimento de servidores de IA. Os fabricantes estão a direcionar grande parte da capacidade de produção para HBM, causando escassez de outros tipos de memória. Na era Vera Rubin, o HBM é o componente mais crítico de todos.
Explicação acessível de termos de memória: SSD
SSD é como uma pen USB gigante, usado para armazenamento de longo prazo, que não esquece os dados ao desligar. Arquivos, vídeos, jogos, tudo fica no SSD (ou no disco rígido tradicional). Na era Vera Rubin, para que os chatbots de IA possam lembrar de muitas palavras, diálogos e conhecimentos, Vera Rubin precisa conectar-se a muitos SSDs, formando uma enorme biblioteca de dados. A Citi estima que um servidor Vera Rubin precisaria de cerca de 1.152TB (ou seja, 1.152 discos de 1TB) de SSDs para funcionar com o novo sistema ICMS.
Antes, os SSDs eram mais como coadjuvantes em armazéns de dados; agora, no ICMS e na inferência de longo contexto, tornaram-se um papel fundamental.
Explicação acessível de termos de memória: NAND
O material que realmente armazena dados dentro do SSD chama-se NAND flash. Pode imaginar-se como uma estante de livros, onde cada página é uma unidade de NAND. O ICMS do Vera Rubin precisa de muitos SSDs, e dentro deles há uma grande quantidade de chips NAND, por isso a IA precisa de muitos NANDs. À medida que os modelos de IA crescem e os diálogos se tornam mais longos, é necessário mais NAND para armazenar textos e resultados intermediários.
Explicação acessível de termos de memória: DRAM
DRAM é como uma lousa de memória de curto prazo. Quando o computador faz cálculos, escreve os dados na DRAM; ao desligar, ela é apagada. É muito mais rápida que SSD, mas tudo se perde ao desligar. No Vera Rubin, ela serve como espaço de trabalho para a CPU/GPU durante operações normais. Não armazena conversas ou modelos gigantescos por muito tempo, mas sustenta o funcionamento do sistema. Contudo, como os fabricantes estão a direcionar capacidade para HBM, a oferta de DRAM comum diminui, levando a aumentos de preço e até escassez.
Explicação acessível de termos de memória: LPDDR5X / DDR5
DDR5: memória principal comum em servidores e PCs de mesa, mais rápida que DDR4.
LPDDR5X: versão de baixo consumo para dispositivos móveis ou módulos de CPU de alta densidade, pode imaginar como uma “DRAM de baixo consumo”.
O processador Rubin, por exemplo, precisa de muita LPDDR5X ou DDR5 como memória do sistema, para controle, agendamento e tarefas do sistema. Elas não ficam ligadas diretamente ao GPU como o HBM, mas são essenciais para o funcionamento estável do servidor de IA. Como a capacidade de HBM foi consumida por sua produção, a oferta de DDR5 / LPDDR5X está apertada, com preços a subir.
Explicação acessível de termos de memória: High Bandwidth Flash (HBF)
Pode imaginar o HBF como NAND com velocidade reforçada, com o objetivo de fazer o Flash (memória de alta velocidade) deixar de ser apenas armazenamento lento, para se tornar mais rápido, quase como memória. Em comparação com SSDs tradicionais, enfatiza “alto throughput e baixa latência”, permitindo que a IA leia e escreva grandes volumes de contexto rapidamente durante a inferência.
No Vera Rubin, uma das principais aplicações do ICMS: colocar grandes caches KV e dados de longo contexto neste tipo de Flash de alta velocidade, usando redes (como RDMA) para que o GPU acesse quase na velocidade da memória local. Essa é a ideia do nível G3.5. Ele eleva o Flash de um mero armazenamento de arquivo para uma memória externa que participa ativamente no processamento.
Era Vera Rubin: uma reestruturação fundamental da arquitetura de hardware
Design extremamente colaborativo (Extreme Co-design) e computação em rack
Na CES 2026, o CEO da NVIDIA, Huang Renxun, revelou um conceito central: na geração Rubin, a unidade de cálculo não é mais um único GPU ou servidor, mas todo um rack de centro de dados. A plataforma Rubin é composta por seis componentes principais: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU e Spectrum-6 Ethernet Switch.
Esta estratégia de design colaborativo extremo visa eliminar gargalos de comunicação entre chips, transformando o rack Vera Rubin NVL72 numa supercomputadora com 3.6 ExaFLOPS de capacidade de inferência e 75TB de memória de alta velocidade.
A evolução desta arquitetura não é apenas uma questão de aumento de desempenho, mas uma resposta às mudanças na natureza das cargas de trabalho de IA. De Blackwell a Rubin, os modelos de IA evoluíram de simples máquinas de perguntas e respostas para agentes inteligentes capazes de realizar inferências multi-passos, recuperar memórias de longo prazo e usar ferramentas. Essas tarefas exigem hardware com alta taxa de transferência, latência extremamente baixa e grande capacidade de retenção de contexto.
Aquisição da Groq e a revolução na inferência: início de uma era de aquisições defensivas e ASICs
No final de 2025, a NVIDIA adquiriu a startup de chips de IA Groq por 20 mil milhões de dólares, através de aquisição de talentos e licenciamento tecnológico. A tecnologia central da Groq, a arquitetura LPU (Unidade de Processamento de Linguagem), é essencialmente um ASIC altamente otimizado para modelos Transformer. Diferente dos GPUs tradicionais que dependem de HBM, a Groq usa SRAM integrada e um design orientado a compiladores.
Em cenários de interação em tempo real, essa arquitetura oferece uma velocidade de geração de tokens até 10 vezes maior que a dos GPUs tradicionais, com eficiência energética 10 vezes superior. A NVIDIA quer complementar a inferência de baixa latência (onde a Groq LPU é forte) com o ecossistema CUDA. Os gigantes de nuvem como Google (TPU) e Amazon (Inferentia) já demonstraram vantagens de custos ao usar ASICs próprios, e a NVIDIA precisa usar a tecnologia da Groq para se defender.
O desafio da Muralha de Contexto (The Context Wall)
Na inferência de longo contexto, o cache Key-Value (KV) é o mecanismo pelo qual o modelo de IA lembra do histórico de diálogos. À medida que a janela de contexto se expande para milhões de tokens, o volume do KV Cache cresce linearmente, rapidamente esgotando a capacidade limitada de HBM (G1) dos GPUs. Quando o HBM enche, os dados são expulsos para a DRAM do sistema (G2) ou SSD local (G3). Isso leva a uma crise no KV Cache: os GPUs frequentemente ficam ociosos à espera de dados históricos.
Nível G3.5: Plataforma de armazenamento de memória de contexto de inferência (ICMS)
Na arquitetura Vera Rubin, a mudança mais disruptiva e profunda na indústria de memória é o nível G3.5, ou seja, a plataforma de armazenamento de memória de contexto de inferência (ICMS, Inference Context Memory Storage). Essa inovação não é apenas uma atualização arquitetônica, mas marca a chegada de uma era de operações sensíveis ao contexto (Context-Aware).
O ICMS usa BlueField-4 DPU e Spectrum-X Ethernet para criar, no nível do rack (Pod), um buffer compartilhado baseado em Flash. Este nível G3.5 fica entre DRAM e armazenamento tradicional, usando tecnologia RDMA (acesso remoto direto à memória) para permitir que o GPU acesse o KV Cache remoto na Flash a uma velocidade próxima à da memória local.
Impulsionando novas normas tecnológicas (HBF & AI-SSD)
Para que NAND Flash possa suportar cargas de trabalho quase como memória, a indústria acelerou a evolução tecnológica, mudando o roteiro das principais fabricantes de memória.
High Bandwidth Flash (HBF): Para alcançar maior largura de banda, a SK Hynix e a SanDisk estão a desenvolver HBF. Trata-se de uma tecnologia de empilhamento 3D semelhante ao HBM, mas usando wafers de NAND, com o objetivo de oferecer várias vezes a taxa de transferência de SSDs tradicionais, especialmente para inferência de IA.
SSD dedicado à IA (AI-NP): A SK Hynix está a colaborar com a NVIDIA no desenvolvimento de SSDs AI-NP capazes de atingir 100 milhões de IOPS. Essa performance é 100 vezes maior que a dos SSDs topo de gama atuais, destinados a atender às exigências extremas de velocidade de leitura aleatória do ICMS, garantindo que os dados sejam entregues instantaneamente ao GPU.
A camada G3.5 do ICMS é a ponte crucial que estende a cadeia de valor da IA desde o caro HBM até o NAND Flash. Ela resolve o problema de memória ilimitada para agentes de IA que realizam tarefas complexas, transformando a indústria de NAND de um produto de ciclo de armazenamento para um recurso estratégico indispensável na infraestrutura de computação de IA.
Efeito de inflação de armazenamento do NVL72 Rubin
De acordo com análises da Citi e outras instituições de mercado, a demanda por NAND na arquitetura Vera Rubin é explosiva. Além do armazenamento padrão, o ICMS impulsionado pelo BlueField-4 adiciona cerca de 16TB de NAND de alta velocidade por GPU. Para um rack NVL72 com 72 GPUs, isso significa uma demanda adicional de aproximadamente 1.152TB (cerca de 1.15PB) de NAND.
Se, até 2026, forem implantados globalmente 100.000 desses racks, a demanda adicional por NAND ultrapassará 115 Exabytes (EB), representando cerca de 12% do total de NAND global previsto para 2025. Essa demanda é não só volumosa, mas também com requisitos de desempenho extremamente elevados, levando a uma escassez de SSDs empresariais no mercado, iniciando um ciclo de escassez liderado pelos fornecedores.
Esta revolução na arquitetura impulsiona o mercado de memória para uma “superciclo triplo” (aumento de preços do DRAM, escassez de NAND, esgotamento de HBM). A seguir, uma análise aprofundada da competitividade das quatro principais empresas:
SK Hynix (SK Hynix): Arquitetura de IA, o designer
Posição
Líder absoluto no mercado de HBM (Participação de 5~60% na era HBM3/3E), aliado principal da NVIDIA.
Vantagens
Domínio do HBM4: estimativas de corretoras indicam que mais de 70% dos pedidos iniciais de HBM4 na plataforma Vera Rubin são da SK Hynix, com capacidade já totalmente vendida até 2026.
Padronização do HBF: parceria com a SanDisk para promover o High Bandwidth Flash (HBF), tentando elevar NAND ao nível de memória quase como memória.
SSD AI-NP: desenvolvimento de SSDs de alta performance com 100 milhões de IOPS, especialmente para ICMS.
Desvantagens
A SK Hynix já está a sofrer com o ciclo super de IA, com quase toda a capacidade de HBM3E / HBM4 comprometida. Em 2026, a própria empresa admite que pode enfrentar ajustes de preço e aumento da concorrência. Diversas instituições alertam que, após 2026, com a expansão da oferta de HBM e a queda de preços, a SK Hynix, que depende mais de HBM, terá maior risco de redução de lucros.
Samsung (Samsung): Contra-ataque do império e vantagem de capacidade
Posição
Fornecedor de soluções completas, uma verdadeira potência de capacidade.
Vantagens
HBM4 turnkey: oferece serviço completo de “memória + lógica + embalagem”, atraindo clientes como Google e Amazon que desenvolvem seus próprios chips.
Benefício direto do G3.5: como maior fabricante mundial de NAND, possui a maior capacidade de fornecimento de SSDs empresariais e memória CXL (PBSSD), atendendo simultaneamente às necessidades de HBM e armazenamento massivo.
Desvantagens
Tecnologia HBM mais recente, precisa reconstruir a confiança dos clientes na geração Rubin; embora tenha volume de NAND, seu poder de precificação não é tão forte quanto o do HBM.
Micron (Micron): Beneficiário de eficiência e geopolítica
Posição
Principal fornecedor de IA dos EUA, com HBM + NAND em duplo impulso.
Vantagens
Dupla vantagem: única fabricante com capacidade de HBM3E/4 e SSDs empresariais avançados. Pode aproveitar os benefícios do Vera Rubin GPU e do ICMS simultaneamente.
Liderança em eficiência energética: produtos HBM alegam ser até 30% mais eficientes, atendendo às exigências extremas de TCO de centros de dados de IA.
Vantagem geopolítica: como único fabricante nos EUA, é a primeira escolha para a nuvem de IA de soberania norte-americana.
Desvantagens
Capacidade total menor que os grandes sul-coreanos, dependente de margens de lucro elevadas devido à tecnologia avançada, sem poder competir por preço.
SanDisk: reavaliação do valor de armazenamento e computação
Posição
Maior beneficiária do nível G3.5, em transição para ações de infraestrutura de IA.
Vantagens
Ação de conceito G3.5 mais pura: a demanda de 1.152TB de NAND por sistema Rubin é um incremento puro para a SanDisk. Seus SSDs empresariais Stargate já têm certificação de grandes clientes.
Transformação de negócios: após a separação da Western Digital, a estratégia mudou totalmente para centros de dados (crescimento de receita anual de 26%), deixando de lado o foco no consumidor.
Potencial de preços: com escassez de oferta, os preços de NAND empresarial podem dobrar, oferecendo alta margem de lucro para a SanDisk.
Desvantagens
Sem fábrica própria, opera no modelo fabless, dependente de terceirização, com menor capacidade de controle de produção em comparação com fabricantes IDM.
Análise prospectiva para 2026: consolidação do mercado de vendedores de memória
Nomura e Citi preveem que, em 2026, haverá um sério desequilíbrio entre oferta e procura. As receitas de DRAM devem crescer 51% ao ano, e os contratos de wafers de NAND podem dobrar de preço. Devido à escassez de salas limpas (Cleanroom) e ao consumo de HBM na produção de wafers (que consome três vezes mais que DRAM), a escassez deve continuar até meados de 2027. Nesta onda de modernização de 10 trilhões de dólares, a chegada do Vera Rubin e da plataforma ICMS elevou os fabricantes de memória de coadjuvantes a protagonistas.
De 2026 a 2028, além do crescimento limitado de HBM e da pressão do ICMS sobre SSDs empresariais, pode surgir outro acelerador: a comercialização do HBF (empilhamento de NAND de alta largura de banda). Recentemente, academia e indústria concordam que, devido à possibilidade de reutilizar parcialmente processos e embalagens do período HBM, a adoção do HBF deve ser mais rápida que a do HBM, entrando na fase de integração em plataformas principais por volta de 2027.