Mensagem do Gate News, 24 de abril — A Cambricon anunciou hoje que concluiu a adaptação do Day 0 do DeepSeek-V4, o mais recente modelo de linguagem grande da DeepSeek, usando seu ecossistema proprietário de software NeuWare e a estrutura vLLM. O código de adaptação foi disponibilizado simultaneamente como open source, marcando a segunda vez consecutiva que a Cambricon entregou suporte nativo de chip no dia do lançamento do novo modelo da DeepSeek.

Para otimizar a arquitetura inédita do DeepSeek-V4, a Cambricon aproveitou sua biblioteca de operadores Torch-MLU-Ops de alto desempenho para aceleração especializada de módulos incluindo Compressor e mHC. A empresa também usou a linguagem de programação BangC para desenvolver kernels altamente otimizados para operadores críticos como Attention esparsa/comprimida e GroupGemm, aproveitando totalmente as capacidades subjacentes do hardware. Esforços anteriores de co-otimização software-hardware entre as duas empresas alcançaram taxas de utilização de computação líderes do setor.

O DeepSeek-V4, que foi lançado hoje e é open source, apresenta uma janela de contexto estendida de um milhão de tokens, fortes capacidades de Agent e excelente desempenho de inferência. A Cambricon afirmou que o DeepSeek-V4 executando nativamente nos chips da Cambricon representa um marco significativo para a indústria de IA da China.

Ver fonte

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Meta Platforms Planeja Redução de 10% da Força de Trabalho em 20 de Maio, Afetando Aproximadamente 8.000 Posições

Notícias do setor de IA

Mensagem do Gate News, 24 de abril — A Meta Platforms planeja reduzir sua força de trabalho em aproximadamente 10%, afetando cerca de 8.000 vagas, em 20 de maio. Os desligamentos têm a intenção de melhorar a eficiência operacional enquanto aumentam os investimentos em inteligência artificial. A reorganização planejada reflete a

GateNews27m atrás

O governo Trump divulgou um plano de combate ao reprocessamento de IA e acusou empresas chinesas de roubo sistemático de capacidades de modelos

Notícias do setor de IA

Escritório de Políticas de Tecnologia da Casa Branca (OSTP), o Assistente do Presidente Michael J. Kratsios em 23 de abril divulgou um comunicado oficial, afirmando que o governo Trump tem informações que mostram que entidades estrangeiras (principalmente sediadas na China) estão deliberadamente mirando grandes empresas de IA dos EUA, extraindo sistematicamente a capacidade dos modelos de IA americanos por meio de “dezenas de milhares de contas de agentes” e sistemas de tecnologia de jailbreak, além de divulgar simultaneamente quatro medidas de resposta.

MarketWhisper50m atrás

DeepSeek lança uma versão de pré-visualização open source do V4, pontuação técnica 3206 superando o GPT-5.4

Notícias do setor de IA

DeepSeek lançou oficialmente a série de pré-visualização V4 em 24 de abril, sob uma licença MIT de código aberto, com os pesos do modelo também disponíveis no Hugging Face e no ModelScope. De acordo com o relatório técnico do DeepSeek V4, o V4-Pro-Max (modo de força máxima de inferência) obteve 3206 pontos no benchmark do Codeforces, superando o GPT-5.4.

MarketWhisper1h atrás

A prévia do Hy3 open source da Tencent melhora em 40% os testes de benchmark de código em relação à versão anterior

Notícias do setor de IA

A Tencent lançou oficialmente o modelo de linguagem grande Hy3 em versão de prévia no GitHub, no Hugging Face e na plataforma ModelScope em 23 de abril, e também disponibilizou simultaneamente um serviço de API pago no Tencent Cloud. De acordo com uma reportagem da Decrypt em 24 de abril, a versão de prévia do Hy3 iniciou o treinamento no final de janeiro e, até a data de publicação, havia menos de três meses.

MarketWhisper1h atrás

Investimentos do Portfólio da FTX no Valor de 158 Trilhões de Won, Se Não Tivesse Falido

Ações Notícias do setor de IA

FTX, a exchange centralizada de criptomoedas que entrou com pedido de proteção contra falência Capítulo 11 em novembro de 2022 devido a escassez de liquidez e saídas de capital, teria mantido investimentos avaliados em aproximadamente 158,796 trilhões de won se não tivesse colapsado, de acordo com uma análise citada por Park

CryptoFrontier1h atrás

Xiaomi Revela Detalhes do Treinamento do MiMo-V2-Pro: Parâmetros do Modelo 1T, Milhares de GPUs Empregadas

Notícias do setor de IA

Mensagem do Gate News, 24 de abril — A líder da equipe de modelos de linguagem da Xiaomi, Luo Fuli, revelou em uma entrevista aprofundada que o modelo MiMo-V2-Pro tem 1 trilhão de parâmetros no total e exigiu milhares de GPUs para o treinamento. Ela observou que a escala de 1T representa o limite mínimo para alcançar

GateNews1h atrás

Comentário

0/400

Sem comentários