
A DeepSeek lançou oficialmente a série de prévia V4 em 24 de abril, com pesos de modelo sincronizados no Hugging Face e no ModelScope, em código aberto sob a licença MIT. De acordo com o relatório técnico da DeepSeek V4, o V4-Pro-Max (modo de maior intensidade de inferência) obteve 3206 pontos na referência do Codeforces, superando o GPT-5.4.
De acordo com o relatório técnico da DeepSeek V4, a série V4 inclui dois modelos de Mixture of Experts (MoE):
V4-Pro: 1,6T de parâmetros totais, 49B de ativação por token, suporte a contexto de 1M token
V4-Flash: 284B de parâmetros totais, 13B de ativação por token, suporte a contexto de 1M token
De acordo com o relatório técnico, no contexto de 1M o FLOPs de inferência por token do V4-Pro é apenas 27% do do V3.2, e o cache KV cai para 10% do do V3.2. Isso se deve principalmente ao upgrade de arquitetura do mecanismo de atenção por mistura (CSA de atenção esparsa comprimida + HCA de atenção comprimida pesada). O tamanho dos dados de pré-treinamento excede 32T tokens; o otimizador de treinamento foi atualizado para o Muon.
De acordo com o relatório técnico da DeepSeek V4, a atualização central do pós-treinamento do V4 está em substituir completamente a fase de mixed RL (aprendizado por reforço de mistura) do V3.2 por destilação de estratégia online (On-Policy Distillation, OPD). O novo processo é dividido em duas etapas: primeiro, treinar especialistas de domínio separadamente para áreas como matemática, código, Agent e seguir instruções (SFT + GRPO aprendizado por reforço); em seguida, usar vários professores OPD para destilar as capacidades de mais de uma dúzia de especialistas em um modelo unificado, alinhando por logit para evitar conflitos de capacidades comuns em métodos tradicionais.
O relatório também introduz um modelo de recompensa generativo (Generative Reward Model, GRM), para tarefas que são difíceis de validar com regras. Com base em poucos dados de rotulagem manual diversificados, o modelo passa a desempenhar simultaneamente as funções de geração e avaliação.
De acordo com o relatório técnico da DeepSeek V4, os resultados de comparação entre V4-Pro-Max e Opus 4.6 Max, GPT-5.4 xHigh e Gemini 3.1 Pro High (não inclui o GPT-5.5 e o Opus 4.7 lançados recentemente):
Codeforces:3206 (GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ o mais alto de todo o campo
LiveCodeBench:93.5 → o mais alto de todo o campo
SWE Verified:80.6, ficando atrás de 80.8 do Opus 4.6, diferença de 0.2 ponto percentual
GPQA Diamond:90.1, ficando atrás de 94.3 do Gemini 3.1 Pro
SimpleQA-Verified:57.9, ficando atrás de 75.6 do Gemini 3.1 Pro
HLE:37.7, ficando atrás de 44.4 do Gemini 3.1 Pro
O relatório técnico também aponta que as comparações acima não incluem o GPT-5.5 e o Opus 4.7 lançados mais recentemente; a diferença entre o V4 e os modelos fechados da geração mais nova ainda precisa ser verificada por testes de terceiros.
De acordo com o anúncio oficial da DeepSeek de 24 de abril, a série V4 é de código aberto sob a licença MIT; os pesos do modelo já foram disponibilizados no Hugging Face e no ModelScope, com aplicação para uso comercial e acadêmico.
De acordo com o relatório técnico da DeepSeek V4, o V4-Pro tem 1,6T de parâmetros totais, com 49B ativados por token; o V4-Flash tem 284B de parâmetros totais, com 13B ativados por token. Ambos oferecem suporte a contexto de 1M token.
De acordo com o relatório técnico da DeepSeek V4, o V4-Pro-Max superou o GPT-5.4 e o Gemini 3.1 Pro em Codeforces (3206 pontos) e LiveCodeBench (93.5), mas ainda ficou atrás do Gemini 3.1 Pro nos benchmarks orientados a conhecimento (GPQA Diamond, SimpleQA-Verified, HLE); o conjunto de comparação não inclui o GPT-5.5 e o Opus 4.7.
Related Articles
Plataforma de Agentes de Negociação com IA Fere AI Levanta US$ 1,3M, Liderada pela Ethereal Ventures
NDRC da China Direciona Empresas de IA, Incluindo Moonshot e StepFun, a Rejeitar Capital dos EUA Sem Aprovação
Juiz dos EUA rejeita as alegações de fraude de Musk contra a OpenAI e Altman
Por que a boa notícia da Intel está impulsionando a alta das ações da Nvidia?
China e EUA Enfrentam Confronto de IA sobre Acusações de Destilação de Modelos e Restrições de Investimento
Alphabet vai investir até $40 bilhões na Anthropic, impulsionando a concorrência de IA