NVIDIA GTC 2026|Análise da Estratégia de Aquisição de Bilião da NVIDIA na Groq, Como o LPX Muda o Processo de Inferência

ChainNewsAbmedia

Na GTC 2026 da NVIDIA, o destaque não foi apenas o Vera Rubin NVL72, mas também o novo paradigma de inferência formado pela combinação do Groq 3 LPX. A infraestrutura de IA está a evoluir de um modelo de computação dominado por GPU única para uma arquitetura heterogénea baseada na divisão de tarefas.

O Groq 3 LPX é posicionado como um acelerador especializado em inferência de baixa latência, complementando o GPU Rubin. Em arquiteturas tradicionais, o GPU precisa lidar simultaneamente com entradas de contexto longo e geração token por token. À medida que os modelos e o comprimento do contexto aumentam rapidamente, esse design integrado começa a apresentar gargalos de eficiência.

Por isso, a NVIDIA desmembrou o processo de inferência, permitindo que o GPU Rubin se concentre na pré-processamento de alta taxa de transferência e no cálculo de atenção, enquanto o LPX cuida da fase de decodificação, que depende mais de respostas em tempo real, especialmente para redes neurais feedforward e operações MoE. No ano passado, a NVIDIA adquiriu a Groq por cerca de 20 bilhões de dólares em dinheiro, justamente por essa razão. A Groq desenvolve uma arquitetura de Unidade de Processamento de Linguagem (LPU) projetada especificamente para inferência de IA, com latência extremamente baixa, respostas estáveis e alta eficiência energética, ideal para cenários de diálogo em tempo real, assistentes de voz, entre outros.

(Maior aquisição da história da NVIDIA: investiu 640 bilhões de dólares para adquirir a tecnologia da Groq e o pai do TPU do Google)

GPU colaborando com LPU para dividir a inferência

Esse conceito, conhecido como “Inferência Desagregada” (Disaggregated Inference), faz com que o processo de inferência não seja mais realizado por um único processador, mas por uma colaboração entre GPU e LPU.

Na prática, o modelo primeiro constrói o contexto e o cache de chaves e valores (KV) na GPU. Durante o ciclo de geração de cada token, a GPU processa a atenção, enquanto o resultado intermediário é enviado ao LPX para o cálculo de FFN, e por fim, a saída é retornada à GPU para a combinação final. Essa divisão de tarefas permite que diferentes unidades de processamento se especializem nas partes que fazem melhor, aumentando significativamente a eficiência geral.

A NVIDIA adquiriu a Groq e aplicou sua LPU no LPX

A essência do LPX está na sua arquitetura de LPU. Diferente de GPUs, que dependem de escalonamento dinâmico e memória externa de alta largura de banda, a LPU adota um design focado em previsibilidade, controlando diretamente o fluxo de operações e dados por meio de compiladores, reduzindo as oscilações de latência. Sua arquitetura SRAM-first mantém os dados críticos dentro do chip, minimizando a incerteza na acessibilidade à memória, o que torna a geração de cada token mais estável. Essa característica é fundamental para aplicações de IA interativas em tempo real, onde a latência impacta diretamente a experiência do usuário.

Especificações do rack LPX divulgadas: composto por 256 LPUs

No aspecto de hardware, um rack LPX é formado por 256 LPUs, oferecendo uma largura de banda de memória on-chip extremamente alta e capacidade de comunicação entre chips, especialmente projetado para inferência de baixa latência. Em contraste com o alto desempenho de FLOPS e grande capacidade de memória do GPU Rubin, o LPX funciona mais como um motor otimizado para a “última milha”, convertendo a saída do modelo em resultados utilizáveis em tempo real.

Este artigo, NVIDIA GTC 2026 | Análise da estratégia de aquisição de bilhões de dólares da NVIDIA na Groq e como o LPX está mudando o processo de inferência, foi originalmente publicado na Chain News ABMedia.

Ver original
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários