DeepSeek-R1 comemora um ano de lançamento e revela o novo modelo 「MODEL1」

BlockBeats notícia, 21 de janeiro, de acordo com a Quantumbit, no primeiro aniversário do lançamento do DeepSeek-R1, foi divulgado o novo modelo 「MODEL1」. O DeepSeek atualizou o código FlashMLA no GitHub, onde há 28 menções a MODEL1 em 114 arquivos, aparecendo ao lado do V32 como modelos diferentes. Sabe-se que o V32 é o DeepSeek-V3.2, e o MODEL1 provavelmente é uma nova arquitetura. As diferenças específicas no código manifestam-se na disposição do cache KV, no tratamento de esparsidade e na decodificação FP8, havendo várias alterações na otimização de memória.

Ver original
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários