DeepSeek une artigo de peso em colaboração com Tsinghua e Peking University: focar na infraestrutura fundamental de agentes inteligentes, superando o gargalo de I/O no raciocínio de Agent!

robot
Geração de resumo em curso

Antes do lançamento do DeepSeek V4, artigo técnico de grande peso é publicado

Modelos de grande escala estão a evoluir rapidamente de chatbots de uma única rodada para agentes capazes de planejar autonomamente, chamar ferramentas e resolver problemas reais. No entanto, essa transformação provoca um grande impacto na arquitetura de computação subjacente.

Quando modelos de grande escala interagem com o ambiente por dezenas ou até centenas de rodadas em um contexto de longo prazo, o gargalo de cálculo passa de GPU para largura de banda de armazenamento I/O. Como cada interação adiciona apenas um pequeno número de tokens, a taxa de acerto do KV-Cache é extremamente alta (geralmente acima de 95%), fazendo com que grande parte do tempo da GPU seja gasto aguardando a leitura de uma vasta quantidade de dados históricos do KV-Cache a partir do armazenamento externo.

Para romper esse impasse, a DeepSeek, em colaboração com equipes de pesquisa de Peking University e Tsinghua, propôs um sistema de inferência de modelos de grande escala totalmente inovador — DualPath.

Este sistema introduz o mecanismo de “carregamento de KV-Cache de caminho duplo”, aproveitando de forma inteligente a largura de banda de rede ociosa no cluster, elevando a taxa de throughput de inferência offline do modelo Agentic em até 1,87 vezes, e aumentando a média de throughput de serviço online em 1,96 vezes.

Atualmente, essa pesquisa foi validada em um cluster com até 1152 GPUs, suportando modelos de ponta como DeepSeek-V3.2 660B.

Por que ocorre um grave gargalo de I/O?

Para entender a inovação do DualPath, primeiro é preciso identificar as dores na arquitetura atual.

Em trajetórias típicas de agentes inteligentes, o modelo recebe uma sequência de prompts contendo o contexto anterior e tokens adicionais, e então gera a próxima ação.

Esse padrão de múltiplas rodadas e adições curtas faz com que o comprimento do contexto cresça rapidamente, podendo atingir milhões de tokens. Devido às limitações de memória de vídeo (HBM) e memória principal (DRAM), o enorme KV-Cache deve ser armazenado em armazenamento externo mais barato, porém mais lento, como SSD.

Sistemas modernos de inferência de modelos de grande escala geralmente adotam uma arquitetura separada de Pré-preenchimento e Decodificação (Prefill-Decode). O nó de pré-preenchimento é responsável por processar os prompts e carregar o KV-Cache correspondente, enquanto o nó de decodificação gera tokens um a um.

O problema está exatamente aí.

Como mostrado na Figura 1 à esquerda, no sistema atual, todo o KV-Cache é carregado diretamente do armazenamento externo para o nó de pré-preenchimento. Isso causa um desequilíbrio extremo: a largura de banda da placa de rede do nó de pré-preenchimento (SNIC) é completamente saturada, tornando-se o gargalo absoluto do sistema; ao mesmo tempo, a placa de rede do nó de decodificação fica largamente ociosa.

Além disso, a tendência de evolução do hardware agrava essa contradição. Como mostra a trajetória de evolução do hardware NVIDIA na Figura 3 à esquerda, o crescimento do poder de cálculo (FLOPS) das GPUs supera em muito o aumento da largura de banda de rede e da capacidade de memória de vídeo, levando a um desequilíbrio grave entre cálculo e I/O.

DualPath: Duplo caminho para romper o teto de largura de banda

Já que a largura de banda de armazenamento do nó de decodificação fica ociosa, por que não aproveitá-la? Essa é a ideia central do DualPath.

A equipe de pesquisa redesenhou a arquitetura de carregamento do KV-Cache, criando uma nova via de carregamento de “armazenamento -> decodificação -> pré-preenchimento”, além do tradicional caminho de armazenamento para pré-preenchimento.

  1. Caminho de leitura de pré-preenchimento: o KV-Cache é lido do armazenamento persistente para o buffer de memória do nó de pré-preenchimento, que então é transferido para a memória da GPU para cálculo, e por fim o KV-Cache completo é enviado ao nó de decodificação.

  2. Caminho de leitura de decodificação: o KV-Cache primeiro é carregado do armazenamento persistente para o buffer de memória do nó de decodificação. Na fase de pré-preenchimento, esses dados são enviados ao nó de pré-preenchimento via rede de alta velocidade entre nós (usando tecnologia RDMA), por transmissão em fluxo hierárquico.

Ao distribuir dinamicamente o fluxo de dados entre esses dois caminhos, o DualPath transforma a pressão de I/O de um único nó em uma carga compartilhada de recursos globais, agregando assim toda a largura de banda de armazenamento de todos os nós.

Superando desafios de implementação: isolamento de fluxo e agendamento dinâmico

A ideia é bastante direta, mas sua implementação em sistemas de inferência de modelos de grande escala, extremamente sensíveis a latências de milissegundos, apresenta desafios técnicos consideráveis.

Primeiro desafio: interferência no fluxo de rede.

A introdução de transmissão adicional do KV-Cache pode conflitar com comunicações críticas durante a inferência, como operações AllToAll em arquiteturas MoE, desacelerando o processamento.

Para isso, o DualPath implementa um mecanismo de gerenciamento de fluxo centrado na placa de rede de cálculo (CNIC). Todo o tráfego de entrada e saída da GPU (incluindo cópias entre host e dispositivo) é forçado a passar pela placa de rede de cálculo, que usa mecanismos de QoS (Qualidade de Serviço) do hardware de rede (como canais virtuais do InfiniBand). As comunicações de inferência são priorizadas em canais de alta prioridade com 99% de largura de banda, enquanto as transmissões do KV-Cache usam canais de baixa prioridade, ocorrendo apenas em momentos ociosos da rede de cálculo, garantindo isolamento de fluxo perfeito.

Segundo desafio: balanceamento de carga dinâmico.

Diante de solicitações complexas e variáveis, o sistema deve decidir em tempo real qual caminho de leitura usar para cada requisição, considerando o comprimento das filas de disco e a carga de cálculo da GPU.

O DualPath introduz um agendador adaptativo de requisições (como ilustrado na Figura 5). Este agendador monitora as filas de leitura de disco de cada nó e usa o número de tokens como métrica de carga. Os nós de cálculo são classificados em três categorias: sobrecarregados, com filas de leitura baixas e com filas altas, sendo que novas tarefas são preferencialmente atribuídas a nós com filas menores e sem sobrecarga.

Internamente, o sistema também realiza agendamento baseado em previsão de tempo, agrupando requisições com tempos de execução semelhantes em lotes, minimizando o tempo de espera da GPU por sincronizações.

Quase o dobro de throughput, suporte a escala de milhares de GPUs

A equipe de pesquisa avaliou o DualPath em um cluster NVIDIA Hopper com rede InfiniBand e armazenamento distribuído 3FS. Os testes envolveram modelos como DeepSeek-V3.2 660B, DS 27B e Qwen2.5-32B, usando dados de trajetórias de ambientes de aprendizado por reforço real.

Desempenho de inferência offline em batch (como na fase de Rollout do aprendizado por reforço):

Com diferentes números de agentes simultâneos e tamanhos máximos de contexto, o DualPath superou amplamente a linha de base. No processamento do modelo DeepSeek 660B, o tempo de conclusão foi significativamente reduzido, com aumento de throughput de até 1,87 vezes.

À medida que o comprimento de tokens adicionais por rodada ou o comprimento de geração variam, o DualPath mantém desempenho estável, provando que conseguiu eliminar o gargalo de armazenamento de rede.

Desempenho em serviço online:

Sob uma política de latência estrita (latência de primeira palavra menor que 4 segundos), a capacidade de lidar com requisições de pico foi significativamente aprimorada. O DualPath suporta uma taxa de requisições (APS) até 2,25 vezes maior que a linha de base, mantendo uma latência de geração de ponta a ponta extremamente baixa. Experimentos de ablação confirmam que o mecanismo de carregamento de caminho duplo e o agendamento adaptativo são os fatores mais críticos para esse aumento de desempenho.

Escalabilidade em grande escala:

O sistema não só apresenta excelente desempenho em clusters de pequeno porte, mas também possui alta escalabilidade em ambientes de computação massiva. Em testes com um grande cluster de 1152 GPUs (48 nós de pré-preenchimento e 96 nós de decodificação), o DualPath conseguiu quase uma expansão linear de desempenho.

Ao remodelar o fluxo de dados de baixo nível, o DualPath pavimenta a infraestrutura para a era dos modelos Agentic de grande escala, rumo a inferências ultrarrápidas.

Fonte: AI Cambrian

Aviso de risco e isenção de responsabilidade

O mercado possui riscos, investimentos devem ser feitos com cautela. Este artigo não constitui recomendação de investimento pessoal, nem leva em conta objetivos, situação financeira ou necessidades específicas de cada usuário. Os usuários devem avaliar se as opiniões, pontos de vista ou conclusões aqui apresentadas são compatíveis com suas condições particulares. Investimentos de acordo com este conteúdo são de responsabilidade do investidor.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский язык
  • Français
  • Deutsch
  • Português (Portugal)
  • ภาษาไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)