Mensagem da Gate News, 24 de abril — O relatório técnico da DeepSeek sobre a V4 revela que a V4-Flash e a V4-Pro foram pré-treinadas, respectivamente, com 32T e 33T tokens, dobrando os aproximadamente 15T tokens usados para a V3. O relatório reconhece que encontrou “desafios significativos de instabilidade” durante o treinamento, com picos de perda ocorrendo repetidamente devido a anomalias na camada (Mixture-of-Experts )MoE(; o próprio mecanismo de roteamento agrava essas anomalias, e um simples rollback não consegue resolver o problema.
A DeepSeek implementou duas soluções agora aplicadas ao treinamento real: Roteamento Antecipatório, que desacopla o cálculo do índice de roteamento das atualizações da rede backbone e dispara automaticamente apenas quando picos de perda são detectados )adicionando aproximadamente 20% de sobrecarga, e Amortecimento de SwiGLU, que suprime diretamente as anomalias ao limitar os valores de ativação a uma faixa fixa. O relatório afirma que ambas as abordagens são eficazes, mas admite que “os princípios subjacentes ainda não são compreendidos de forma suficiente”.
Susan Zhang, pesquisadora da Google DeepMind que anteriormente trabalhou na Meta AI e na OpenAI, comentou que a instabilidade desencadeada pelo aumento do volume de dados de treinamento em dobro “explica o atraso”. Ela descreveu as duas soluções como “band-aids”, ao mesmo tempo em que reconheceu a transparência técnica da DeepSeek.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
A Cursor revela as razões do treinamento de XAI: o poder de computação ficou travado, e a SpaceX, por sua vez, detém opções de compra no valor de 60 bilhões de dólares
A Anysphere anunciou que o Cursor irá, com a xAI, usar a infraestrutura Colossus para treinar novos modelos e superar a limitação de capacidade de computação; a SpaceX propôs uma opção de aquisição de US$ 60 bilhões (aquisição total dentro de 2026), e, caso não dê certo, pagará aproximadamente US$ 10 bilhões como compensação de colaboração. As duas transações ocorrem ao mesmo tempo, remodelando quem pode treinar o Cursor e quem pode comprar o Cursor; o Cursor ainda permite muitos backends de modelos, mas, a longo prazo, o caminho depende de a SpaceX exercer o direito de aquisição.
ChainNewsAbmedia14m atrás
Avaliação no mercado secundário da Anthropic ultrapassa 1 trilhão de dólares: Forge Global supera a OpenAI em 880 bilhões
De acordo com a reportagem da Decrypt, a avaliação secundária da Anthropic da Forge Global é de cerca de 1 trilhão de dólares; a da OpenAI é de aproximadamente 8.800 bilhões de dólares, com uma reversão de liderança pela primeira vez no mercado secundário. O ARR da Anthropic passou de cerca de 9,0 bilhões no fim de 2025 para aproximadamente 30 bilhões em março de 2026; em três meses, cresceu 233%, elevando a avaliação privada. As avaliações no mercado secundário são diferentes dos financiamentos na rodada primária, refletindo a confiança na saída; no futuro, ainda se espera que quatro frentes — tecnologia, políticas, negócios e narrativa — continuem em foco.
ChainNewsAbmedia15m atrás
Meta Platforms Planeja Redução de 10% da Força de Trabalho em 20 de Maio, Afetando Aproximadamente 8.000 Posições
Mensagem do Gate News, 24 de abril — A Meta Platforms planeja reduzir sua força de trabalho em aproximadamente 10%, afetando cerca de 8.000 vagas, em 20 de maio. Os desligamentos têm a intenção de melhorar a eficiência operacional enquanto aumentam os investimentos em inteligência artificial.
A reorganização planejada reflete a
GateNews1h atrás
O governo Trump divulgou um plano de combate ao reprocessamento de IA e acusou empresas chinesas de roubo sistemático de capacidades de modelos
Escritório de Políticas de Tecnologia da Casa Branca (OSTP), o Assistente do Presidente Michael J. Kratsios em 23 de abril divulgou um comunicado oficial, afirmando que o governo Trump tem informações que mostram que entidades estrangeiras (principalmente sediadas na China) estão deliberadamente mirando grandes empresas de IA dos EUA, extraindo sistematicamente a capacidade dos modelos de IA americanos por meio de “dezenas de milhares de contas de agentes” e sistemas de tecnologia de jailbreak, além de divulgar simultaneamente quatro medidas de resposta.
MarketWhisper1h atrás
DeepSeek lança uma versão de pré-visualização open source do V4, pontuação técnica 3206 superando o GPT-5.4
DeepSeek lançou oficialmente a série de pré-visualização V4 em 24 de abril, sob uma licença MIT de código aberto, com os pesos do modelo também disponíveis no Hugging Face e no ModelScope. De acordo com o relatório técnico do DeepSeek V4, o V4-Pro-Max (modo de força máxima de inferência) obteve 3206 pontos no benchmark do Codeforces, superando o GPT-5.4.
MarketWhisper1h atrás
Cambricon Conclui Adaptação do Day 0 do DeepSeek-V4, Marcando um Marco para o Ecossistema de Chips de IA da China
Mensagem do Gate News, 24 de abril — A Cambricon anunciou hoje que concluiu a adaptação do Day 0 do DeepSeek-V4, o mais recente modelo de linguagem grande da DeepSeek, usando seu ecossistema proprietário de software NeuWare e a estrutura vLLM. O código de adaptação foi disponibilizado simultaneamente como open source, marcando o
GateNews2h atrás