Yifan Zhang Divulga as Especificações Técnicas Completas do DeepSeek V4: 1,6T Parâmetros, 384 Especialistas com 6 Ativações

Mensagem do Gate News, 22 de abril — o estudante de PhD da Princeton, Yifan Zhang, divulgou no X as especificações técnicas completas do DeepSeek V4, após um prévio em 19 de abril. O V4 tem 1,6 trilhão de parâmetros no total e uma variante leve, o V4-Lite, com 285 bilhões de parâmetros.

O modelo emprega o mecanismo de atenção DSA2, que combina a atenção esparsa DSA anterior do DeepSeek (DeepSeek Sparse Attention) da V3.2 e a NSA (Native Sparse Attention) com embeddings de cabeçalho de 512 dimensões, pareado com Sparse Multi-Query Attention (MQA) e Sliding Window Attention (SWA). A camada MoE (Mixture of Experts) contém 384 especialistas com 6 ativados por passagem direta, utilizando o Fused MoE Mega-Kernel. As conexões residuais usam a arquitetura Hyper-Connections.

Detalhes de treinamento revelados pela primeira vez incluem o uso do otimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), uma janela de contexto de pré-treinamento de 32K tokens e GRPO (Group Relative Policy Optimization) com correção de divergência KL durante o aprendizado por reforço. A janela de contexto final se estende até 1 milhão de tokens. O modelo é apenas texto.

Zhang não é empregado pela DeepSeek, e a empresa não comentou oficialmente as informações divulgadas.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Alibaba Qwen abre serviços de IA para parceiros externos; China Eastern Airlines é a primeira a integrar

A Alibaba abre os Serviços de IA do Qwen para parceiros externos; a China Eastern Airlines se torna a primeira fora da Alibaba a implantar um serviço completo de reserva de voos com IA, permitindo que os usuários solicitem opções como voos diretos mais acessíveis ou assentos espaçosos.

GateNews4m atrás

Microsoft integra o Claude Mythos Preview da Anthropic para detectar vulnerabilidades de software

Mensagem do Gate News, 23 de abril — A Microsoft está integrando o modelo de IA Claude Mythos Preview da Anthropic em seu Ciclo de Desenvolvimento de Segurança para identificar falhas de software mais cedo e acelerar a correção. Os testes da empresa em benchmarks de código aberto mostraram que o Mythos superou modelos anteriores em

GateNews4m atrás

Google Lança Chips de IA Separados para Treinamento e Inferência, Aumentando o Desempenho em 2,8x

Mensagem do Gate News, 23 de abril — A Google anunciou em 22 de abril que lançará chips separados de TPU de oitava geração para treinamento e inferência ainda este ano, substituindo seu projeto anterior combinado. A iniciativa mira cargas de trabalho de agentes de IA e oferece aos clientes da Google Cloud uma alternativa ao hardware da Nvidia

GateNews24m atrás

Fundador da Liquid Capital: Falhas de Crypto VC Decorrem do Desalinhamento com a Web2; IA + Finanças Criam Nova Oportunidade

Mensagem do Gate News, 23 de abril — Jack Yi, fundador da Liquid Capital, compartilhou no X que as falhas passadas de venture capital cripto e de projetos foram, em grande parte, impulsionadas por equipes que desperdiçaram capital desenvolvendo produtos Web3 desnecessários ao fazerem benchmarking incorreto em relação à Web2. Yi argumentou que a Web3 é fundamentalmente uma indústria financeira

GateNews36m atrás

A FTX manteria $114B em ativos se o espólio falido não tivesse vendido as participações da Anthropic, Solana, SpaceX

Os valores das participações da FTX não liquidadas somariam cerca de $114B hoje, com Anthropic US$ 82,3B, SpaceX US$ 15B, Solana US$ 5,1B, Cursor US$ 3B, Robinhood US$ 4,9B e Genesis Digital US$ 3,5B, de acordo com a Cointelegraph. Resumo: Se o espólio da falência da FTX tivesse mantido suas participações, ele teria cerca de $114 bilhões em ativos, liderados por Anthropic e SpaceX, destacando grandes ganhos não realizados no portfólio, de acordo com a Cointelegraph.

GateNews37m atrás

Entregas do Nvidia H200 para a China atrasadas por aprovação e discordâncias sobre termos

O secretário de Comércio dos EUA, Howard Lutnick, afirmou em 22 de abril que a Nvidia não vendeu seus chips de IA H200 para clientes chineses, citando a falta de aprovação de Pequim e a prioridade da China em investir em fornecedores domésticos, segundo a Reuters. A administração Trump liberou alguns H200 com destino à China

CryptoFrontier50m atrás
Comentário
0/400
Sem comentários