DeepSeek lança uma versão de pré-visualização open source do V4, pontuação técnica 3206 superando o GPT-5.4

DeepSeek V4開源預覽版

A DeepSeek lançou oficialmente a série de prévia V4 em 24 de abril, com pesos de modelo sincronizados no Hugging Face e no ModelScope, em código aberto sob a licença MIT. De acordo com o relatório técnico da DeepSeek V4, o V4-Pro-Max (modo de maior intensidade de inferência) obteve 3206 pontos na referência do Codeforces, superando o GPT-5.4.

Especificações de arquitetura dos dois modelos MoE

De acordo com o relatório técnico da DeepSeek V4, a série V4 inclui dois modelos de Mixture of Experts (MoE):

V4-Pro: 1,6T de parâmetros totais, 49B de ativação por token, suporte a contexto de 1M token

V4-Flash: 284B de parâmetros totais, 13B de ativação por token, suporte a contexto de 1M token

De acordo com o relatório técnico, no contexto de 1M o FLOPs de inferência por token do V4-Pro é apenas 27% do do V3.2, e o cache KV cai para 10% do do V3.2. Isso se deve principalmente ao upgrade de arquitetura do mecanismo de atenção por mistura (CSA de atenção esparsa comprimida + HCA de atenção comprimida pesada). O tamanho dos dados de pré-treinamento excede 32T tokens; o otimizador de treinamento foi atualizado para o Muon.

Metodologia de pós-treinamento: destilação de estratégia online substitui aprendizado por reforço de mistura

De acordo com o relatório técnico da DeepSeek V4, a atualização central do pós-treinamento do V4 está em substituir completamente a fase de mixed RL (aprendizado por reforço de mistura) do V3.2 por destilação de estratégia online (On-Policy Distillation, OPD). O novo processo é dividido em duas etapas: primeiro, treinar especialistas de domínio separadamente para áreas como matemática, código, Agent e seguir instruções (SFT + GRPO aprendizado por reforço); em seguida, usar vários professores OPD para destilar as capacidades de mais de uma dúzia de especialistas em um modelo unificado, alinhando por logit para evitar conflitos de capacidades comuns em métodos tradicionais.

O relatório também introduz um modelo de recompensa generativo (Generative Reward Model, GRM), para tarefas que são difíceis de validar com regras. Com base em poucos dados de rotulagem manual diversificados, o modelo passa a desempenhar simultaneamente as funções de geração e avaliação.

Resultados de benchmark: liderança em codificação, ainda há lacuna em raciocínio de conhecimento

De acordo com o relatório técnico da DeepSeek V4, os resultados de comparação entre V4-Pro-Max e Opus 4.6 Max, GPT-5.4 xHigh e Gemini 3.1 Pro High (não inclui o GPT-5.5 e o Opus 4.7 lançados recentemente):

Codeforces:3206 (GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ o mais alto de todo o campo

LiveCodeBench:93.5 → o mais alto de todo o campo

SWE Verified:80.6, ficando atrás de 80.8 do Opus 4.6, diferença de 0.2 ponto percentual

GPQA Diamond:90.1, ficando atrás de 94.3 do Gemini 3.1 Pro

SimpleQA-Verified:57.9, ficando atrás de 75.6 do Gemini 3.1 Pro

HLE:37.7, ficando atrás de 44.4 do Gemini 3.1 Pro

O relatório técnico também aponta que as comparações acima não incluem o GPT-5.5 e o Opus 4.7 lançados mais recentemente; a diferença entre o V4 e os modelos fechados da geração mais nova ainda precisa ser verificada por testes de terceiros.

Perguntas frequentes

Quais são os termos de licença de código aberto do DeepSeek V4 Preview e onde posso obtê-los?

De acordo com o anúncio oficial da DeepSeek de 24 de abril, a série V4 é de código aberto sob a licença MIT; os pesos do modelo já foram disponibilizados no Hugging Face e no ModelScope, com aplicação para uso comercial e acadêmico.

Qual é a diferença no porte de parâmetros entre o DeepSeek V4-Pro e o V4-Flash?

De acordo com o relatório técnico da DeepSeek V4, o V4-Pro tem 1,6T de parâmetros totais, com 49B ativados por token; o V4-Flash tem 284B de parâmetros totais, com 13B ativados por token. Ambos oferecem suporte a contexto de 1M token.

Qual é o resultado da comparação de benchmark entre o DeepSeek V4-Pro-Max e o GPT-5.4 e o Gemini 3.1 Pro?

De acordo com o relatório técnico da DeepSeek V4, o V4-Pro-Max superou o GPT-5.4 e o Gemini 3.1 Pro em Codeforces (3206 pontos) e LiveCodeBench (93.5), mas ainda ficou atrás do Gemini 3.1 Pro nos benchmarks orientados a conhecimento (GPQA Diamond, SimpleQA-Verified, HLE); o conjunto de comparação não inclui o GPT-5.5 e o Opus 4.7.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Plataforma de Agentes de Negociação com IA Fere AI Levanta US$ 1,3M, Liderada pela Ethereal Ventures

Mensagem do Gate News, 25 de abril — A plataforma de agentes de negociação de ativos digitais com IA, Fere AI, anunciou a conclusão de uma rodada de financiamento de US$ 1,3 milhão, liderada pela Ethereal Ventures, com a participação da Galaxy Vision Hill e da Kosmos Ventures. A plataforma oferece suporte a redes cross-chain, incluindo Ethereum,

GateNews37m atrás

NDRC da China Direciona Empresas de IA, Incluindo Moonshot e StepFun, a Rejeitar Capital dos EUA Sem Aprovação

Mensagem do Gate News, 25 de abril — A Comissão Nacional de Desenvolvimento e Reforma da China (NDRC) instruiu várias empresas de IA a rejeitar capital dos EUA nas últimas semanas, a menos que obtenham aprovação explícita do governo, de acordo com a Bloomberg citando fontes informadas. Moonshot AI e StepFun, ambas se preparando f

GateNews1h atrás

Juiz dos EUA rejeita as alegações de fraude de Musk contra a OpenAI e Altman

Mensagem do Gate News, 25 de abril — Um juiz dos EUA rejeitou acusações de fraude apresentadas por Elon Musk contra a OpenAI e o cofundador da OpenAI, Sam Altman, em sua ação judicial contínua contra a empresa. O tribunal decidiu que as alegações de fraude não vão prosseguir, embora o juiz tenha agendado audiências adicionais para tratar das alegações restantes de Musk no caso.

GateNews1h atrás

Por que a boa notícia da Intel está impulsionando a alta das ações da Nvidia?

As informações do lucro por ação (EPS) da Intel deste trimestre ficaram em US$ 0,29 e a receita em US$ 13,6 bilhões, ambos superando as expectativas; o ritmo de atualização dos data centers e dos equipamentos de computação voltou a ganhar força, aumentando a confiança na demanda por semicondutores e por IA. Esta notícia positiva impulsionou o preço das ações da Nvidia por volta do meio-dia, com alta de cerca de 4,9%; o mercado considera que a demanda por capacidade computacional básica ainda está forte, reduzindo a preocupação com a bolha da IA e sustentando as expectativas de crescimento de longo prazo da Nvidia. A concorrência entre as duas também ocorreu com uma sinergia positiva entre os setores.

ChainNewsAbmedia6h atrás

China e EUA Enfrentam Confronto de IA sobre Acusações de Destilação de Modelos e Restrições de Investimento

Mensagem do Gate News, 24 de abril — A China rejeitou as acusações dos EUA de que seus gigantes de tecnologia estão explorando a tecnologia de IA americana por meio de destilação em escala industrial, enquanto ambos os países se preparam para um grande choque em torno do desenvolvimento de IA e do controle de investimentos. A administração Trump está se preparando para

GateNews8h atrás

Alphabet vai investir até $40 bilhões na Anthropic, impulsionando a concorrência de IA

Mensagem do Gate News, 24 de abril — A Alphabet, empresa-mãe do Google, planeja investir até $40 bilhões no desenvolvedor de IA Anthropic, incluindo $10 bilhões antecipadamente e $30 bilhões em financiamento adicional condicionado ao cumprimento de determinados marcos de desempenho. Esse investimento ocorre após a participação anterior de 14% da Alphabet na Anthropic e

GateNews10h atrás
Comentário
0/400
Sem comentários