DeepSeek V4 annonce l'abandon de NVIDIA ! Où en est la percée de l'IA chinoise pour l'« indépendance de la puissance de calcul » ?

動區BlockTempo

2026-03-04 07:15:41

DeepSeek annonce que sa nouvelle génération de modèles V4 adoptera entièrement une solution de puces nationales, sans dépendre des GPU de NVIDIA. Depuis l’incident de ZTE jusqu’aux trois interdictions de puces, l’industrie chinoise de l’IA cherche à se démarquer par l’optimisation des algorithmes, le remplacement par des produits locaux et l’exportation de tokens.

(Précédent : Gao parle de DeepSeek : jamais copié ChatGPT, contourne la plateforme CUDA de NVIDIA via des techniques de bas niveau)

(Contexte supplémentaire : FBI et Maison Blanche enquêtent ! La suspicion : DeepSeek aurait obtenu des puces NVIDIA via des intermédiaires à Singapour)

Il y a huit ans, ZTE a connu un arrêt cardiaque. Le 16 avril 2018, une interdiction du Département du Commerce américain a stoppé net ZTE, qui comptait 80 000 employés et réalisait plus de mille milliards de revenus annuels, devenant le quatrième plus grand fournisseur mondial d’équipements de communication. La règle était simple : pendant sept ans, aucune entreprise américaine ne pouvait vendre de composants, logiciels ou technologies à ZTE.

Sans puces Qualcomm, les stations de base ont cessé de produire. Sans la licence Android de Google, les téléphones ne pouvaient plus fonctionner. 23 jours plus tard, ZTE publiait un communiqué : ses activités principales étaient désormais impossibles.

Finalement, ZTE a survécu, mais au prix de 1,4 milliard de dollars.

Une amende de 1 milliard de dollars payée en une seule fois ; 400 millions de dollars de caution déposés dans un compte séquestre américain. De plus, tous les cadres ont été remplacés, et une équipe de conformité américaine a été installée. En 2018, ZTE a enregistré une perte nette de 7 milliards de RMB, avec une chute de 21,4 % de son chiffre d’affaires.

Yin Yimin, alors président de ZTE, écrivait dans une lettre interne : « Nous sommes dans une industrie complexe, fortement dépendante de la chaîne d’approvisionnement mondiale. » À l’époque, cela sonnait comme une réflexion amère.

Huit ans plus tard, le 26 février 2026, l’unicorn chinois de l’IA DeepSeek annonce que son modèle multimodal V4, à venir, sera prioritairement développé en collaboration avec des fabricants de puces nationales, réalisant pour la première fois une démarche complète, du pré-entraînement à l’affinement, sans recourir à NVIDIA.

En résumé : nous n’utilisons plus NVIDIA.

L’annonce a immédiatement suscité des sceptiques. NVIDIA détient plus de 90 % du marché mondial des puces d’entraînement IA. Abandonner cette plateforme, est-ce rationnel commercialement ?

Mais derrière ce choix de DeepSeek se cache une question plus grande que la logique commerciale : jusqu’où l’IA chinoise doit-elle atteindre son indépendance en puissance de calcul ?

Beaucoup pensent que l’interdiction des puces bloque le matériel. En réalité, ce qui étouffe vraiment les entreprises chinoises d’IA, c’est CUDA.

CUDA, ou Compute Unified Device Architecture, est une plateforme de calcul parallèle et un modèle de programmation lancé par NVIDIA en 2006. Il permet aux développeurs d’accéder directement à la puissance des GPU NVIDIA pour accélérer des calculs complexes.

Avant l’ère de l’IA, CUDA était un outil réservé à une minorité de geeks. Mais avec l’avènement du deep learning, CUDA est devenu la pierre angulaire de toute l’industrie IA.

L’entraînement de grands modèles IA repose essentiellement sur d’immenses opérations matricielles, que les GPU excellent à réaliser.

Grâce à une stratégie de plus de dix ans, NVIDIA a construit avec CUDA une chaîne d’outils complète, du matériel à l’application, pour les développeurs IA du monde entier. Aujourd’hui, tous les frameworks IA majeurs, de TensorFlow de Google à PyTorch de Meta, sont profondément liés à CUDA.

Un doctorant spécialisé en IA, dès le premier jour, apprend dans un environnement CUDA, écrit des programmes, réalise des expérimentations. Chaque ligne de code renforce la position de NVIDIA.

En 2025, l’écosystème CUDA compte plus de 4,5 millions de développeurs, couvre plus de 3 000 applications accélérées par GPU, et plus de 40 000 entreprises dans le monde l’utilisent. Cela signifie que plus de 90 % des développeurs IA mondiaux sont liés à l’écosystème NVIDIA.

Ce qui rend CUDA redoutable, c’est sa dynamique de « volant d’inertie » : plus il y a d’utilisateurs, plus l’écosystème s’enrichit en outils, bibliothèques et code, ce qui attire encore plus de développeurs. Une fois lancé, ce cercle vertueux est presque impossible à arrêter.

Résultat : NVIDIA vend ses outils les plus chers, tout en définissant la seule posture d’exploitation minière. Voulez-vous changer d’outil ? C’est possible. Mais il vous faudra réécrire toute l’expérience accumulée en une décennie par des dizaines de milliers de cerveaux mondiaux.

Qui paiera ce coût ?

Lorsque, le 7 octobre 2022, la première vague de contrôles BIS a limité l’exportation vers la Chine des GPU A100 et H100, les entreprises chinoises d’IA ont ressenti pour la première fois une suffocation à la ZTE. NVIDIA a rapidement lancé des versions « spéciales Chine » : A800 et H800, avec une bande passante réduite, pour maintenir l’approvisionnement.

Mais un an plus tard, le 17 octobre 2023, une nouvelle restriction a encore durci le ton : A800 et H800 ont été interdits, 13 entreprises chinoises placées sur liste noire. NVIDIA a dû sortir une version encore plus limitée, H20. En décembre 2024, la dernière vague de restrictions de l’administration Biden a encore limité strictement l’exportation de H20.

Trois vagues de contrôles, chaque fois plus strictes.

Mais cette fois, l’issue est très différente de celle de ZTE.

Sous ces interdictions, tout le monde pensait que le rêve de grands modèles IA chinois allait s’éteindre.

Mais ils se sont trompés. Face au blocage, les entreprises chinoises n’ont pas choisi la confrontation frontale, mais ont lancé une contre-offensive. La première bataille de cette contre-offensive ne concerne pas le matériel, mais les algorithmes.

Entre fin 2024 et 2025, les entreprises chinoises d’IA se sont tournées vers une nouvelle stratégie : les modèles experts hybrides.

En résumé, il s’agit de diviser un grand modèle en plusieurs petits experts, qui ne sont activés que lorsque leur spécialité est requise, plutôt que de faire fonctionner tout le modèle en permanence.

DeepSeek V3 illustre parfaitement cette approche. Avec 671 milliards de paramètres, il n’active que 37 milliards lors de l’inférence, soit seulement 5,5 % du total. Pour l’entraînement, il a utilisé 2 048 GPU H800, durant 58 jours, pour un coût total de 5,576 millions de dollars. En comparaison, le coût estimé de l’entraînement de GPT-4 serait d’environ 78 millions de dollars, une différence d’un ordre de grandeur.

L’optimisation algorithmique extrême a directement impacté le prix : l’API de DeepSeek coûte entre 0,028 et 0,28 dollar par million de tokens en entrée, et 0,42 dollar en sortie. À l’inverse, GPT-4 facture environ 5 dollars pour l’entrée, 15 dollars pour la sortie. Claude Opus est encore plus cher, avec 15 dollars en entrée et 75 en sortie. En conversion, DeepSeek est 25 à 75 fois moins cher que Claude.

Cette différence de prix a un impact énorme sur le marché mondial des développeurs. En février 2026, sur la plateforme d’API d’IA la plus grande au monde, OpenRouter, le volume d’appels aux modèles chinois a explosé de 127 % en trois semaines, dépassant pour la première fois celui des États-Unis. Un an plus tôt, la part des modèles chinois sur OpenRouter était inférieure à 2 %. Un an plus tard, elle a augmenté de 421 %, approchant 60 %.

Derrière ces chiffres, se cache une transformation structurelle souvent ignorée : à partir de la seconde moitié de 2025, les applications IA principales sont passées de la conversation à l’agent intelligent. Dans ce contexte, la consommation de tokens par tâche est 10 à 100 fois supérieure à celle d’une simple conversation. Quand la consommation de tokens explose, le prix devient un facteur déterminant. La performance prix extrême des modèles chinois a justement exploité cette fenêtre.

Mais le problème, c’est que la réduction des coûts d’inférence ne règle pas la question fondamentale de l’entraînement. Un grand modèle, s’il ne peut pas continuer à s’entraîner et à évoluer sur des données récentes, voit ses capacités se dégrader rapidement. Et l’entraînement reste le trou noir du calcul.

Alors, d’où viennent les « pelles » pour l’entraînement ?

À Xinghua, dans le Jiangsu, une petite ville connue pour l’acier inoxydable et l’alimentation saine, rien ne semblait lié à l’IA. Pourtant, en 2025, une ligne de production de serveurs de calcul entièrement nationale, longue de 148 mètres, a été construite en seulement 180 jours.

Au cœur de cette ligne, deux puces entièrement chinoises : le processeur Longxin 3C6000, avec son architecture et ses instructions entièrement développées en interne, et la carte d’accélération Tai Chu Yuan Qi T100, issue d’un partenariat avec le centre national de calcul de Wuxi et Tsinghua, utilisant une architecture hétérogène multi-noyaux.

Une fois en production, cette ligne peut sortir un serveur toutes les 5 minutes. Son investissement total s’élève à 1,1 milliard de RMB, avec une capacité annuelle de 100 000 unités.

Plus important encore, cette ferme de serveurs, basée sur ces puces nationales, a commencé à prendre en charge de véritables entraînements de grands modèles.

En janvier 2026, Zhipu AI, en partenariat avec Huawei, a lancé GLM-Image, le premier modèle d’état de l’art (SOTA) pour la génération d’images, entièrement entraîné avec des puces nationales. En février, le modèle « Xingchen » de China Telecom, doté de centaines de milliards de paramètres, a été entièrement entraîné sur un pool de serveurs chinois.

Ces exemples prouvent une chose : les puces nationales ont dépassé le stade de la simple inférence pour atteindre celui de l’entraînement. C’est une rupture qualitative. La simple inférence nécessite de faire tourner un modèle déjà entraîné, avec des exigences modérées. L’entraînement, lui, demande de traiter d’énormes volumes de données, de faire des calculs de gradients complexes et de mettre à jour les paramètres, ce qui exige une puissance de calcul, une bande passante et une écosystème logiciel bien plus avancés.

Les acteurs clés pour ces tâches sont les puces Huawei Ascend. Fin 2025, l’écosystème Ascend comptait plus de 4 millions de développeurs, plus de 3 000 partenaires, et 43 grands modèles d’industrie entraînés sur ces puces, avec plus de 200 modèles open source adaptés. Lors du MWC du 2 mars 2026, Huawei a lancé à l’étranger sa nouvelle plateforme de calcul SuperPoD.

L’Ascend 910B, avec sa puissance FP16, rivalise désormais avec le A100 de NVIDIA. Bien que l’écart subsiste, la plateforme est passée de « inutilisable » à « utilisable », puis à « performante ». La construction de l’écosystème ne doit pas attendre que le matériel soit parfait : il faut commencer à déployer à grande échelle dès qu’on a des capacités suffisantes, en utilisant les besoins réels pour pousser l’innovation matérielle et logicielle. Les géants comme ByteDance, Tencent, Baidu voient leur déploiement de serveurs de calcul nationaux doubler chaque année. Selon le MIIT, la capacité de calcul IA chinoise atteint 1590 EFLOPS. 2026 sera l’année de la déploiement massif de cette capacité nationale.

Au début 2026, la Virginie, qui supporte une grande partie du trafic mondial des data centers, a suspendu l’approbation de nouveaux projets de centres de données. La Géorgie a suivi, avec une suspension prolongée jusqu’en 2027. L’Illinois et le Michigan ont aussi adopté des mesures restrictives.

Selon l’Agence internationale de l’énergie, la consommation électrique des data centers américains a atteint 183 TWh en 2024, soit 4 % de la consommation nationale. D’ici 2030, ce chiffre pourrait doubler à 426 TWh, représentant plus de 12 %. Le PDG d’Arm prévoit qu’en 2030, les centres de données IA consommeront 20 à 25 % de l’électricité américaine.

Le réseau électrique américain est déjà sous tension. Le réseau PJM, couvrant 13 États de l’Est, souffre d’un déficit de 6 GW. D’ici 2033, la pénurie totale pourrait atteindre 175 GW, soit la consommation de 130 millions de foyers. Le coût de l’électricité en gros dans ces zones stratégiques a augmenté de 267 % en cinq ans.

L’épuisement des ressources en énergie est la limite ultime de la puissance de calcul. Sur ce plan, la différence entre la Chine et les États-Unis est encore plus grande que celle des puces, mais dans une direction opposée.

La production électrique annuelle de la Chine est de 10,4 térawatts-heure, contre 4,2 pour les États-Unis : la Chine produit 2,5 fois plus. Plus important encore, la consommation résidentielle ne représente que 15 % de la consommation totale en Chine, contre 36 % aux États-Unis. La Chine dispose donc d’un surplus industriel d’électricité bien supérieur pour alimenter ses capacités de calcul.

En termes de prix de l’électricité, dans les zones IA américaines, il tourne autour de 0,12 à 0,15 dollar par kWh, tandis qu’en Chine occidentale, le coût industriel est d’environ 0,03 dollar, soit un quart à un cinquième du prix américain.

La croissance de la production électrique chinoise a atteint sept fois celle des États-Unis.

Pendant que les États-Unis s’inquiètent de leur approvisionnement électrique, la Chine voit son IA s’exporter discrètement. Mais cette fois, ce n’est pas un produit ni une usine, c’est un token.

Un token, unité minimale d’information traitée par un modèle IA, devient une nouvelle marchandise numérique. Il est produit dans les usines de calcul chinoises, puis transporté via des câbles sous-marins vers le reste du monde.

Les données d’utilisation de DeepSeek illustrent bien cette tendance : 30,7 % en Chine, 13,6 % en Inde, 6,9 % en Indonésie, 4,3 % aux États-Unis, 3,2 % en France. Il supporte 37 langues et est très populaire dans des marchés émergents comme le Brésil. Au total, 26 000 entreprises ont ouvert un compte, 3 200 ont déployé une version entreprise.

En 2025, 58 % des nouvelles startups IA intègrent DeepSeek dans leur stack technologique. En Chine, DeepSeek détient 89 % de parts de marché. Dans d’autres pays sous sanctions, la part varie entre 40 et 60 %.

Ce tableau évoque fortement une autre guerre pour l’indépendance industrielle, il y a quarante ans.

En 1986, Tokyo, sous forte pression américaine, a signé l’accord semiconducteur Japon-États-Unis. Trois points clés : ouverture du marché japonais, avec une part de marché américaine dans les semi-conducteurs au Japon supérieure à 20 % ; interdiction d’exporter des semi-conducteurs japonais à prix inférieur au coût ; taxation punitive de 100 % sur 300 millions de dollars de puces exportées. Par ailleurs, les États-Unis ont bloqué l’acquisition de Fujitsu par Quick Semiconductor.

À cette époque, l’industrie japonaise des semi-conducteurs était au sommet. En 1988, le Japon contrôlait 51 % du marché mondial, contre 36,8 % pour les États-Unis. Les dix plus grands fabricants mondiaux étaient japonais : NEC, Toshiba, Hitachi, Fujitsu, Mitsubishi, Panasonic. En 1985, Intel avait perdu 173 millions de dollars dans la guerre des semi-conducteurs avec le Japon, frôlant la faillite.

Mais après la signature de l’accord, tout a changé.

Les États-Unis ont lancé une offensive totale contre le secteur japonais, via l’enquête 301 et autres mesures, tout en soutenant Samsung et Hynix en Corée, qui ont inondé le marché japonais à prix cassés. La part de marché des DRAM japonais est passée de 80 % à 10 %. En 2017, le marché des circuits intégrés japonais ne représentait plus que 7 %. Les géants autrefois invincibles ont été divisés, rachetés ou ont disparu dans des pertes incessantes.

Le drame japonais réside dans le fait qu’ils se sont contentés d’être les meilleurs dans une division du travail mondiale dominée par une seule puissance extérieure, sans jamais chercher à bâtir leur propre écosystème indépendant. Quand la marée est partie, ils ont réalisé qu’ils n’avaient plus que leur production, et rien d’autre.

Aujourd’hui, l’industrie IA chinoise se trouve à un carrefour similaire, mais radicalement différent.

Ce qui est semblable, c’est la pression extérieure énorme. Les trois vagues de contrôle sur les puces, la barrière CUDA toujours aussi haute.

Ce qui est différent, c’est que cette fois, la voie choisie est plus difficile : optimisation algorithmique extrême, passage de l’inférence à l’entraînement avec des puces nationales, accumulation de 4 millions de développeurs dans l’écosystème de Huawei Ascend, et l’exportation de tokens pour pénétrer le marché mondial. Chaque étape construit une nouvelle industrie indépendante que le Japon n’a jamais eue.

Le 27 février 2026, trois rapports financiers de fabricants locaux de puces IA ont été publiés simultanément.

Cambricon a vu ses revenus exploser de 453 %, atteignant pour la première fois la rentabilité annuelle. Moore Threads a augmenté de 243 %, mais reste en perte de 100 millions. Muxi a enregistré une croissance de 121 %, avec une perte de près de 800 millions.

Une moitié de feu, l’autre de mer.

Le feu, c’est la soif insatiable du marché. Les 95 % de parts vacantes laissées par Huang Renxun sont en train d’être remplies, peu à peu, par ces entreprises locales. Peu importe leur performance, peu importe leur écosystème, le marché a besoin d’une alternative à NVIDIA. C’est une opportunité géopolitique unique.

La mer, c’est le coût énorme de la construction d’un écosystème. Chaque perte est un investissement pour rattraper CUDA : R&D, subventions logicielles, ingénieurs déployés sur site pour résoudre les problèmes de compilation. Ces pertes ne sont pas une mauvaise gestion, mais le prix à payer pour bâtir une industrie indépendante.

Ces trois rapports financiers racontent plus sincèrement que tout rapport industriel la réalité de cette guerre du calcul. Ce n’est pas une victoire en fanfare, mais une bataille acharnée, sanglante, en terrain conquis et perdu.

Mais la forme de la guerre a changé. Il y a huit ans, on parlait de « survivre ». Aujourd’hui, on parle de « combien ça coûte pour survivre ».

Le coût, c’est la progression elle-même.

Voir l'original

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Commentaire

0/400

Aucun commentaire