Yifan Zhang divulgue les spécifications techniques complètes de DeepSeek V4 : 1,6T paramètres, 384 experts avec 6 activations

Message de Gate News, 22 avril — Le doctorant de Princeton Yifan Zhang a divulgué sur X les spécifications techniques complètes de DeepSeek V4, après un aperçu le 19 avril. V4 affiche 1,6 trillion de paramètres au total et une variante légère, V4-Lite, avec 285 milliards de paramètres.

Le modèle emploie le mécanisme d’attention DSA2, qui combine l’ancienne attention DSA (DeepSeek Sparse Attention) de DeepSeek issue de la V3.2 et la NSA (Native Sparse Attention) avec des embeddings de tête de dimension 512, associée à l’attention à requêtes multiples clairsemées (MQA) et à l’attention à fenêtre glissante (SWA). La couche MoE (Mixture of Experts) contient 384 experts avec 6 experts activés par passe avant, en utilisant le méga-kernel MoE fusionné. Les connexions résiduelles utilisent l’architecture Hyper-Connections.

Les détails d’entraînement révélés pour la première fois incluent l’utilisation de l’optimiseur Muon (applying Newton-Schulz orthogonalization to momentum updates), une fenêtre de contexte de préentraînement de 32K tokens, et GRPO (Group Relative Policy Optimization) avec correction par divergence KL pendant l’apprentissage par renforcement. La fenêtre de contexte finale s’étend jusqu’à 1 million de tokens. Le modèle est text-only.

Zhang n’est pas employé par DeepSeek, et l’entreprise n’a fait aucun commentaire officiel sur les informations divulguées.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

OpenAI nomme Emmanuel Marill, ancien dirigeant d’Airbnb, pour piloter l’expansion EMEA

OpenAI engage Emmanuel Marill comme directeur général pour l’EMEA afin de soutenir l’expansion, malgré les inquiétudes liées à la souveraineté et la concurrence de Mistral AI ; les abonnements EMEA sont en hausse. Résumé : OpenAI nomme Emmanuel Marill directeur général pour l’Europe, le Moyen-Orient et l’Afrique afin d’accélérer l’expansion dans un contexte d’inquiétudes liées à la souveraineté et de surveillance de l’UE. Cette décision intervient alors que les abonnements EMEA augmentent et vise à renforcer l’empreinte locale face à des rivaux comme Mistral AI.

GateNewsIl y a 11m

Thinking Machines Lab signe un accord cloud de plusieurs milliards de dollars avec Google

Message de Gate News, 23 avril — Thinking Machines Lab, une startup d’IA fondée par l’ancienne dirigeante d’OpenAI Mira Murati, a signé un accord portant sur l’infrastructure cloud avec Google Cloud, évalué à plusieurs milliards de dollars américains (un chiffre). L’accord marque le premier partenariat de l’entreprise avec un grand fournisseur cloud

GateNewsIl y a 21m

Le résultat opérationnel T1 de SK Hynix bondit de 406 % et atteint un record sous l’effet de la demande en puces IA

SK Hynix publie un résultat opérationnel T1 de 37,6 billions de won et un chiffre d’affaires de 52,6 billions de won, en forte hausse grâce à la demande tirée par l’IA pour les DRAM et les NAND, ainsi qu’au passage à l’inférence en temps réel.

GateNewsIl y a 1h

OpenAI atteint une valorisation pré-IPO de $1 trillion au milieu d’une course avec SpaceX et Anthropic

OpenAI s’approche d’une valorisation pré-IPO implicite de $1T via des paris on-chain ; SpaceX et Anthropic visent des valorisations similaires alors que les coûts d’infrastructure IA s’envolent, stimulant les revenus d’abonnement tandis qu’Anthropic est confrontée à une confusion sur sa tarification.

GateNewsIl y a 2h

La valorisation de DeepSeek explose au-delà de $20 milliard, alors que Tencent et Alibaba pèsent des investissements

DeepSeek cherche à >$20B à la Bourse de Tencent/Alibaba discutent d'investissements ; Nvidia prévient que l'avantage des puces américaines pourrait être affaibli par Huawei ; le financement de l'IA continue d'exploser avec le tour $1B de Vast Data et les investissements d'OpenAI/Anthropic/xAI. DeepSeek vise une valorisation supérieure à $20 milliard au milieu de discussions avec Tencent et Alibaba, tandis que Nvidia avertit que le fait de faire basculer des modèles d'IA vers des puces Huawei pourrait éroder la position de tête des États-Unis. L'article souligne aussi une hausse mondiale du financement de l'IA, y compris le tour $1 milliard de Vast Data à une valorisation de $30 milliard et de gros investissements dans OpenAI, Anthropic et xAI.

GateNewsIl y a 4h

OpenClaw, Hermes et SillyTavern confirmés comme projets pris en charge dans le cadre du GLM Coding Plan

Le responsable produit de Zhipu AI, Li, annonce OpenClaw, Hermes et SillyTavern comme projets pris en charge dans le cadre du GLM Coding Plan ; les autres outils seront évalués au cas par cas. Ne partagez pas vos identifiants et n’utilisez pas d’abonnements comme accès API ; contactez le support pour l’erreur 1313. Le responsable produit de Zhipu AI, Li, a annoncé qu’OpenClaw, Hermes et SillyTavern sont officiellement pris en charge dans le cadre du GLM Coding Plan, tandis que les autres outils sont évalués au cas par cas. La note met en garde contre le partage d’identifiants ou l’utilisation d’abonnements comme accès API et indique aux utilisateurs confrontés à l’erreur 1313 de contacter le support.

GateNewsIl y a 7h
Commentaire
0/400
Aucun commentaire