DeepSeek V4 Chegou—Sua Versão Profissional Custa 98% Menos Que GPT 5.5 Pro

###Resumindo

  • DeepSeek lançou seu novo modelo V4-Pro com 1,6 trilhão de parâmetros.
  • Custa $1,74/$3,48 por milhão de tokens de entrada/saída, aproximadamente 1/20 do preço do Claude Opus 4.7 e 98% mais barato que o GPT 5.5 Pro.
  • DeepSeek treinou o V4 parcialmente com chips Huawei Ascend, contornando as restrições de exportação dos EUA, e afirma que, assim que 950 novos supernós entrarem online no final de 2026, o preço do modelo Pro, já baixo, cairá ainda mais.

DeepSeek voltou, e apareceu poucas horas após a OpenAI lançar o GPT-5.5. Coincidência? Talvez. Mas se você é um laboratório de IA chinês que o governo dos EUA tem tentado desacelerar com bans de exportação de chips nos últimos três anos, seu senso de timing fica bem afiado. O laboratório de Hangzhou lançou versões de pré-visualização do DeepSeek-V4-Pro e DeepSeek-V4-Flash hoje, ambos com peso aberto, ambos com janelas de contexto de um milhão de tokens. Isso significa que você pode basicamente trabalhar com um contexto aproximadamente do tamanho da trilogia O Senhor dos Anéis antes que o modelo colapse. Ambos também têm preços bem abaixo de qualquer coisa comparável no Ocidente, e ambos são gratuitos para quem puder rodar localmente. A última grande disrupção do DeepSeek—R1 em janeiro de 2025—apagou $600 bilhão da capitalização de mercado da Nvidia em um único dia, enquanto investidores questionavam se empresas americanas realmente precisavam de investimentos tão grandes para produzir resultados que um pequeno laboratório chinês conseguiu com uma fração do custo. O V4 é um movimento diferente: mais silencioso, mais técnico, e mais focado em eficiência para quem realmente constrói com IA.

Dois modelos, trabalhos muito diferentes  Dos dois novos modelos, o DeepSeek V4-Pro é o maior, com 1,6 trilhão de parâmetros no total. Para colocar em perspectiva, parâmetros são as “configurações” internas ou “células cerebrais” que um modelo usa para armazenar conhecimento e reconhecer padrões—quanto mais parâmetros, mais informações complexas ele pode teoricamente reter. Isso faz dele o maior modelo de código aberto no mercado de LLM até hoje. O tamanho pode parecer ridículo até você aprender que ele ativa apenas 49 bilhões deles por passagem de inferência.
Essa é a técnica de Mistura de Especialistas que o DeepSeek aperfeiçoou desde o V3: o modelo completo fica lá, mas apenas a fatia relevante dele desperta para qualquer solicitação. Mais conhecimento, mesma conta de computação. “DeepSeek-V4-Pro-Max, o modo de maior esforço de raciocínio do DeepSeek-V4-Pro, avança significativamente as capacidades de conhecimento dos modelos de código aberto, firmemente estabelecendo-se como o melhor modelo de código aberto disponível hoje,” escreveu o DeepSeek na ficha oficial do modelo no Huggingface. “Ele alcança desempenho de ponta em benchmarks de codificação e reduz significativamente a lacuna com os principais modelos de código fechado em raciocínio e tarefas agenticas.” V4-Flash é o mais prático: 284 bilhões de parâmetros no total, 13 bilhões ativos. Foi projetado para ser mais rápido, mais barato, e, segundo os próprios benchmarks do DeepSeek, “alcança desempenho de raciocínio comparável à versão Pro quando dado um orçamento maior de pensamento.”

Ambos suportam um milhão de tokens de contexto. Isso é aproximadamente 750.000 palavras—quase toda a trilogia “O Senhor dos Anéis” mais uma mudança. E isso como recurso padrão, não como um nível premium. O segredo do DeepSeek (não tão) segredo: fazer a atenção não ser terrível em escala Aqui está a parte técnica para nerds ou interessados na magia por trás do modelo. O DeepSeek não esconde seus segredos, e tudo está disponível de graça—o artigo completo está no Github. A atenção padrão de IA—o mecanismo que permite a um modelo entender relações entre palavras—tem um problema brutal de escalabilidade. Toda vez que você dobra o comprimento do contexto, o custo de computação quase quadruplica. Então rodar um modelo com um milhão de tokens não é apenas duas vezes mais caro que 500.000 tokens. É quatro vezes mais caro. É por isso que contextos longos historicamente foram uma opção que os laboratórios adicionavam e depois silenciavam por limites de taxa. O DeepSeek inventou dois novos tipos de atenção para contornar isso. O primeiro, Atenção Esparsa Comprimida, funciona em duas etapas. Primeiro, comprime grupos de tokens—digamos, a cada 4 tokens—em uma única entrada. Depois, ao invés de atender a todas essas entradas comprimidas, usa um “Indexador Relâmpago” para escolher apenas os resultados mais relevantes para qualquer consulta. Seu modelo passa de atender a um milhão de tokens para atender a um conjunto muito menor dos pedaços mais importantes, como um bibliotecário que não lê todos os livros, mas sabe exatamente qual prateleira verificar. O segundo, Atenção Altamente Comprimida, é mais agressivo. Ele colapsa cada 128 tokens em uma única entrada—sem seleção esparsa, apenas compressão brutal. Você perde detalhes finos, mas ganha uma visão global extremamente barata. Os dois tipos de atenção rodam em camadas alternadas, assim o modelo obtém tanto o detalhe quanto a visão geral.

O resultado, do artigo técnico: Em um milhão de tokens, o V4-Pro usa 27% da computação que seu predecessor (V3.2) precisava. O cache KV—a memória que o modelo precisa para acompanhar o contexto—cai para apenas 10% do V3.2. O V4-Flash leva isso ainda mais longe: 10% de computação, 7% de memória. E isso acabou permitindo que o DeepSeek oferecesse um preço por token muito mais barato que seus concorrentes, enquanto fornece resultados comparáveis. Em termos de dólares: o GPT-5.5 lançado ontem com $5 entrada e $30 saída por milhão de tokens, com o GPT-5.5 Pro custando $30 por milhão de tokens de entrada e $180 por milhão de tokens de saída.

DeepSeek V4-Pro custa $1,74 por entrada e $3,48 por saída. V4-Flash custa $0,14 por entrada e $0,28 por saída. O CEO da Cline, Saoud Rizwan, apontou que se a Uber tivesse usado DeepSeek ao invés de Claude, seu orçamento de IA para 2026—supostamente suficiente para quatro meses de uso—teria durado sete anos.

deepseek v4 agora é o modelo sota mais barato disponível, a 1/20 do custo do Opus 4.7.

para ter uma ideia, se a Uber usasse deepseek ao invés de claude, seu orçamento de IA de 2026 duraria 7 anos ao invés de apenas 4 meses. pic.twitter.com/i9rJZzvRBV

— Saoud Rizwan (@sdrzn) 24 de abril de 2026

Os benchmarks O DeepSeek faz algo incomum em seu relatório técnico: publica as lacunas. A maioria das versões de modelos escolhem os benchmarks onde vencem. O DeepSeek rodou a comparação completa contra GPT-5.4 e Gemini-3.1-Pro, descobriu que o raciocínio do V4-Pro fica atrás desses modelos em cerca de três a seis meses, e mesmo assim publicou os resultados. Onde o V4-Pro-Max realmente vence: Codeforces, benchmark de programação competitiva, avaliado como xadrez humano. O V4-Pro marcou 3.206, ficando em torno do 23º lugar entre participantes humanos de concursos. No Apex Shortlist, um conjunto curado de problemas difíceis de matemática e STEM, obteve uma taxa de aprovação e atingiu 90,2% contra 85,9% do Opus 4.6 e 78,1% do GPT-5.4. No SWE-Verified, que mede se um modelo consegue resolver problemas reais do GitHub retirados de repositórios de código aberto, marcou 80,6%—igualando o Claude Opus 4.6.

Onde fica atrás: benchmark de multitarefa MMLU-Pro (Gemini-3.1-Pro com 91,0% contra 87,5%), benchmark de conhecimento especializado GPQA Diamond (Gemini com 94,3 contra 90,1), e o Exame Final da Humanidade, um benchmark de nível de mestrado onde o Gemini-3.1-Pro com 44,4% ainda supera o V4-Pro com 37,7%. No contexto longo especificamente, o V4-Pro lidera modelos de código aberto e supera o Gemini-3.1-Pro no benchmark CorpusQA (um teste que simula análise de documentos reais com um milhão de tokens), mas perde para o Claude Opus 4.6 no MRCR—um teste que mede quão bem um modelo consegue recuperar agulhas específicas enterradas fundo em um feno muito longo. Construído para rodar agentes, não apenas responder perguntas A parte de agentes é onde esse lançamento fica interessante para desenvolvedores que realmente entregam produtos.

V4-Pro pode rodar no Claude Code, OpenCode, e outras ferramentas de codificação de IA. Segundo uma pesquisa interna do DeepSeek com 85 desenvolvedores que usaram o V4-Pro como seu agente principal de codificação, 52% disseram que estava pronto para ser seu modelo padrão, 39% inclinados a dizer sim, e menos de 9% disseram não. Funcionários internos disseram que ele supera o Claude Sonnet e chega perto do Claude Opus 4.5 em tarefas agenticas de codificação.

Artificial Analysis, que realiza avaliações independentes de modelos de IA em tarefas do mundo real, classificou o V4-Pro em primeiro entre todos os modelos de peso aberto no GDPval-AA—um benchmark que testa trabalhos de conhecimento economicamente valiosos em finanças, legal e pesquisa, avaliado via Elo. O V4-Pro-Max marcou 1.554 Elo, à frente do GLM-5.1 (1.535) e do MiniMax M2.7 (1.514). Para referência, o Claude Opus 4.6 pontua 1.619 nesse mesmo benchmark—ainda na frente, mas a diferença está diminuindo.

DeepSeek V4 Pro é o modelo de peso aberto número 1 no GDPval-AA, nossa avaliação de tarefas de trabalho do mundo real agentico@deepseek_ai lançou o V4 Pro (1,6T total / 49B ativos) e o V4 Flash (284B total / 13B ativos). O V4 é o primeiro novo tamanho da DeepSeek desde o V3, com todos os modelos intermediários… pic.twitter.com/2kJWVrKQjF

— Artificial Analysis (@ArtificialAnlys) 24 de abril de 2026

O V4 do DeepSeek também introduz algo chamado “pensamento intercalado”. Em modelos anteriores, se você rodava um agente que fazia múltiplas chamadas de ferramenta—digamos, buscava na web, depois rodava um código, depois buscava novamente—o contexto de raciocínio do modelo era apagado entre as rodadas. Cada novo passo, o modelo tinha que reconstruir seu modelo mental do zero. O V4 mantém toda a cadeia de pensamento ao longo das chamadas de ferramenta, então um fluxo de trabalho de 20 passos não sofre de amnésia no meio do caminho. Isso importa mais do que parece para quem roda pipelines automatizados complexos. DeepSeek e a guerra de IA entre EUA e China Os EUA vêm restringindo exportações de chips Nvidia de alta ponta para a China desde 2022. O objetivo declarado era desacelerar o desenvolvimento de IA chinês, mas a proibição de chips não parou o DeepSeek e, ao contrário, os fez inventar uma arquitetura mais eficiente e montar uma cadeia de suprimentos doméstica. O DeepSeek não lançou o V4 no vácuo—o espaço de IA tem estado bastante ativo recentemente: a Anthropic lançou o Claude Opus 4.7 em 16 de abril—um modelo Decrypt testado e considerado forte em codificação e raciocínio, com uso de tokens notavelmente alto. No dia anterior, a Anthropic também tinha o Claude Mythos, um modelo de cibersegurança que diz não poder lançar publicamente porque é muito bom em ataques autônomos à rede. A Xiaomi lançou o MiMo V2.5 Pro em 22 de abril, tornando-se multimodal completo—imagem, áudio, vídeo. Custos $1 entrada e $3 saída por milhão de tokens. Ele iguala o Opus 4.6 na maioria dos benchmarks de codificação. Há três meses, ninguém falava da Xiaomi como uma empresa de IA de fronteira. Agora ela está lançando modelos competitivos mais rápido que a maioria dos laboratórios ocidentais.

O GPT-5.5 da OpenAI chegou ontem com custos subindo até $180 por milhão de tokens de saída na versão Pro. Ele supera o V4-Pro no Terminal Bench 2.0 (82,7% contra 70,0%), que testa fluxos de trabalho complexos de agentes de linha de comando. Mas custa consideravelmente mais que o V4-Pro para tarefas equivalentes. No mesmo dia, a Tencent lançou o Hy3, outro modelo de ponta focado em eficiência. O que isso significa para você Então, com tantos modelos novos disponíveis, a pergunta que os desenvolvedores realmente fazem: Quando o premium vale a pena? Para empresas, a matemática pode ter mudado. Um modelo que lidera benchmarks de código aberto a $1,74 por milhão de tokens de entrada significa que pipelines de processamento de documentos, revisão legal ou geração de código que eram caros há seis meses agora estão muito mais acessíveis. O contexto de um milhão de tokens permite alimentar bases de código inteiras ou documentos regulatórios em uma única solicitação, ao invés de dividir em várias chamadas. Além disso, sua natureza de código aberto significa que ele pode não só ser executado gratuitamente em hardware local, mas também ser personalizado e aprimorado de acordo com as necessidades e casos de uso da empresa. Para desenvolvedores e construtores solo, o V4-Flash é o que deve ser observado. Com $0,14 por entrada e $0,28 por saída, é mais barato que modelos considerados opções econômicas há um ano—e consegue lidar com a maioria das tarefas que a versão Pro realiza. Os endpoints deepseek-chat e deepseek-reasoner já roteiam para o V4-Flash em modos de não pensamento e pensamento, respectivamente, então se você usa a API, já está usando ele. Os modelos são apenas de texto por enquanto. O DeepSeek disse que está trabalhando em capacidades multimodais, o que significa que outros laboratórios grandes, de Xiaomi a OpenAI, ainda têm essa vantagem. Ambos os modelos têm licença MIT e estão disponíveis hoje no Hugging Face. Os endpoints antigos deepseek-chat e deepseek-reasoner serão desativados em 24 de julho de 2026.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar