DeepSeek lança série de modelos de código aberto V4 com 1,6T de parâmetros e Licença MIT

Mensagem de Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis no Hugging Face e no ModelScope. A série inclui dois modelos (MoE) de especialistas em mistura: V4-Pro com 1,6 trilhão de parâmetros totais e 49 bilhões ativados por token, e V4-Flash com 284 bilhões de parâmetros totais e 13 bilhões ativados por token. Ambos suportam uma janela de contexto de 1 milhão de tokens.

A arquitetura traz três melhorias principais: um mecanismo de atenção híbrido que combina atenção esparsa comprimida (CSA) e atenção fortemente comprimida (HCA), reduzindo significativamente a sobrecarga de contextos longos — os FLOPs de inferência do V4-Pro para contexto de 1M são apenas 27% dos do V3.2, e o cache de KV (VRAM para armazenar informações históricas durante a inferência) é apenas 10% do do V3.2; hipervínculos com restrição de manifold (mHC) substituindo conexões residuais tradicionais para aprimorar a estabilidade da propagação de sinais entre camadas; e o otimizador Muon para acelerar a convergência do treinamento. O pré-treinamento usou mais de 32 trilhões de tokens de dados.

O pós-treinamento emprega uma abordagem em duas etapas: primeiro, treinar especialistas específicos de domínio via fine-tuning supervisionado (SFT) e aprendizado por reforço com GRPO, depois fundi-los em um único modelo por meio de distilação online. O V4-Pro-Max (highest inference mode) afirma ser o modelo de código aberto mais forte, com benchmarks de codificação de ponta e lacunas significativamente reduzidas em relação a modelos de fronteira de código fechado em tarefas de raciocínio e de agentes. O V4-Flash-Max atinge desempenho de raciocínio no nível do Pro com orçamento de computação suficiente, mas é limitado pela escala de parâmetros em tarefas puramente de conhecimento e tarefas de agentes complexas. Os pesos são armazenados em precisão mista FP4+FP8.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

O Reino Unido observa a Anthropic AI para fortalecer a cibersegurança bancária

O Reino Unido está explorando um grande passo em cibersegurança financeira ao trabalhar com a empresa de IA Anthropic. As primeiras discussões sugerem que o governo pode implantar o avançado modelo Claude Mythos da Anthropic em bancos e instituições financeiras. Essa medida visa aprimorar as defesas contra ameaças cibernéticas

CryptometerIo1m atrás

O Escritório de PI da China Adiciona IA, Semicondutores e Interfaces Cérebro-Computador ao Programa de Proteção com Tramitação Acelerada

Mensagem do Gate News, 24 de abril — A Administração Nacional de Propriedade Intelectual da China anunciou em 24 de abril que estabelecerá proteção abrangente de propriedade intelectual para tecnologias emergentes por meio de reformas institucionais, serviços aprimorados e aplicações ampliadas. A administração wi

GateNews8m atrás

O governo dos EUA opera um nó de Bitcoin sem mineração, indica o almirante

Um almirante sênior indicou que o Governo dos EUA está operando ativamente um nó na rede Bitcoin, enquanto deliberadamente evita participar das atividades de mineração. A divulgação sugere que as autoridades estão assumindo um papel mais envolvido na infraestrutura de blockchain para supervisão e

CryptoFrontier24m atrás

Receita da Tesla no 1T sobe 16% para US$22,4B; robô humanoide deve estrear em meados de 2026

Mensagem de notícias do Gate, 24 de abril — A Tesla reportou receita do primeiro trimestre de US$22,4 bilhões em 23 de abril, representando um aumento de 16% ano contra ano. As entregas globais de veículos da empresa excederam 358.000 unidades, enquanto a produção ultrapassou 408.000 unidades. A fábrica Gigafactory de Xangai da Tesla entregou 213.000 veícu

GateNews24m atrás

Lucro da SK Hynix no 1T dispara cinco vezes para recorde com boom de IA, elevando bônus de funcionários para US$ 878K

Mensagem de Gate News, 24 de abril — A SK Hynix informou um aumento de cinco vezes no lucro operacional trimestral, atingindo um recorde de 37,61 trilhões de won ($32.4 bilhões) em 23 de abril, impulsionado pela demanda em alta de inteligência artificial e data centers. O lucro extraordinário está financiando bônus aos funcionários sem precedentes, que analistas pr

GateNews1h atrás

Arquitetura DeepSeek V4 Verificada: 3 de 4 Previsões Acertadas, Módulo Engram Ausente

Mensagem de notícias do Gate, 24 de abril — A DeepSeek lançou hoje o cartão do modelo V4, validando as previsões arquiteturais anteriores feitas por meio da análise da biblioteca de kernels TileKernels lançada ontem (23 de abril). De acordo com o monitoramento da Beating, três componentes principais foram confirmados: mHC

GateNews1h atrás
Comentário
0/400
Sem comentários