Mensagem de Gate News, 24 de abril — O relatório técnico V4 da DeepSeek revela que o V4-Flash e o V4-Pro foram pré-treinados em 32T e 33T tokens, respetivamente, o dobro dos aproximadamente 15T tokens usados para o V3. O relatório reconhece ter encontrado “desafios significativos de instabilidade” durante o treino, com picos de perda a ocorrer repetidamente devido a anomalias na camada Mixture-of-Experts (MoE); o mecanismo de routing em si agrava estas anomalias, e um simples rollback não consegue resolver o problema.
DeepSeek implementou duas soluções agora aplicadas ao treino real: Routing Antecipatório, que desacopla o cálculo do índice de routing das atualizações da rede backbone e ativa automaticamente apenas quando são detetados picos de perda (adicionando aproximadamente 20% de sobrecarga), e SwiGLU Clamping, que suprime diretamente as anomalias ao limitar os valores de ativação a um intervalo fixo. O relatório afirma que as duas abordagens são eficazes, mas admite que “os princípios subjacentes permanecem insuficientemente compreendidos.”
Susan Zhang, uma investigadora da Google DeepMind que anteriormente trabalhou na Meta AI e na OpenAI, comentou que a instabilidade despoletada pelo dobro dos dados de treino “explica o atraso”. Ela descreveu as duas soluções como “band-aids” enquanto reconhecia a transparência técnica da DeepSeek.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
Razões para a seleção do treino XAI pela Cursor: o poder de computação ficou bloqueado, a SpaceX detém mais 60 mil milhões de dólares em opções de compra
O anúncio da Anysphere afirma que a Cursor irá, em conjunto com a xAI, treinar novos modelos com a infraestrutura Colossus para ultrapassar o estrangulamento de capacidade computacional; a SpaceX apresentou uma opção de compra de 60 mil milhões de dólares (aquisição total até 2026), caso não seja possível, pagará cerca de 10 mil milhões de dólares como compensação de colaboração. Estas duas transacções decorrem em simultâneo, reconfigurando quem consegue treinar a Cursor e quem consegue comprar a Cursor; a Cursor continua a permitir vários backends de modelos, mas a orientação a longo prazo depende de saber se a SpaceX exercerá o direito de compra.
ChainNewsAbmedia14m atrás
Avaliação no mercado secundário da Anthropic ultrapassa 1 bilião de dólares: Forge Global supera a OpenAI em 880 mil milhões
De acordo com a reportagem da Decrypt, a avaliação em segunda ronda da Forge Global da Anthropic é de cerca de 1 bilião de dólares, a da OpenAI cerca de 880 mil milhões de dólares, com a primeira inversão de liderança a surgir no mercado secundário. O ARR da Anthropic aumentou de cerca de 9 mil milhões até ao final de 2025 para cerca de 30 mil milhões em março de 2026; crescimento de 233% em três meses, impulsionando a avaliação privada. As avaliações em mercado secundário diferem das rondas de financiamento em mercado primário, reflectindo a confiança na saída; no futuro, continuam a ser observados quatro canais — tecnologia, políticas, negócios e narrativa.
ChainNewsAbmedia15m atrás
A Meta Platforms prevê uma redução de 10% do quadro de pessoal a 20 de maio, afectando aproximadamente 8.000 posições
Mensagem do Gate News, 24 de abril — A Meta Platforms planeia reduzir o seu quadro de pessoal em aproximadamente 10%, afectando cerca de 8.000 postos de trabalho, a 20 de maio. Os despedimentos têm como objectivo melhorar a eficiência operacional, ao mesmo tempo que aumentam o investimento em inteligência artificial.
A reestruturação planeada reflecte
GateNews1h atrás
O Governo Trump anunciou um plano de combate à extração de IA, acusando as empresas chinesas de roubo sistemático das capacidades dos modelos
O Gabinete de Política Tecnológica da Casa Branca (OSTP), o assessor presidencial Michael J. Kratsios, emitiu, a 23 de abril, um comunicado oficial, afirmando que a administração Trump tem informação, indicando que entidades estrangeiras (principalmente na China) estão a visar deliberadamente grandes empresas de IA dos EUA, através da extração sistemática de capacidades dos modelos de IA dos EUA por meio de “dezenas de milhares de contas de agentes” e sistemas de tecnologia de jailbreaking, e divulgando em simultâneo quatro medidas de resposta.
MarketWhisper1h atrás
A DeepSeek lançou uma pré-visualização de código aberto da V4, com uma pontuação técnica de 3206, superando o GPT-5.4
A DeepSeek lançou oficialmente a série de pré-visualização V4 em 24 de abril, com código aberto sob a licença MIT, e os pesos do modelo foram disponibilizados na Hugging Face e na ModelScope. De acordo com o relatório técnico da DeepSeek V4, o V4-Pro-Max (modo de máxima força de inferência) obteve 3206 pontos no benchmark do Codeforces, ultrapassando o GPT-5.4.
MarketWhisper1h atrás
Cambricon Conclui a Adaptação Day 0 do DeepSeek-V4, Marco para o Ecossistema de Chips de IA da China
Mensagem do Gate News, 24 de Abril — A Cambricon anunciou hoje que concluiu a adaptação Day 0 do DeepSeek-V4, o mais recente modelo de linguagem grande da DeepSeek, utilizando o seu ecossistema proprietário de software NeuWare e o framework vLLM. O código de adaptação foi simultaneamente disponibilizado como open-source, assinalando o
GateNews2h atrás