2026年 CES Salon de l’électronique grand public, le PDG de NVIDIA Huang Renxun annonce officiellement la mise en production de Vera Rubin, marquant une étape clé dans l’histoire du développement de l’intelligence artificielle (IA) : du début de l’IA générative centrée sur la formation de modèles, on entre désormais dans une ère dominée par l’IA agentique (Agentic AI) et l’inférence à grande échelle.
(Huang Renxun CES fixe 2026 : Vera Rubin en production de masse, véhicules autonomes IA en Q1, processus clé provenant de TSMC)
Ce rapport analysera en profondeur comment cette transition technologique redéfinit la couche matérielle des centres de données, en particulier la couche de stockage G3.5 et la plateforme de mémoire pour inférence (ICMS). Dans ce contexte, les quatre géants mondiaux de la mémoire et du stockage : SK Hynix, Samsung Electronics, Micron Technology et SanDisk, font face à des opportunités et défis sans précédent.
Qu’est-ce que HBM, DRAM, NAND ? Analyse des termes mémoire
Avant d’entrer dans le contenu principal, voici une explication simple des termes :
Explication simplifiée des termes mémoire : HBM (incluant HBM3E, HBM4, HBM5)
HBM signifie High Bandwidth Memory (Mémoire à large bande passante). On peut l’imaginer comme empiler plusieurs couches de puces DRAM comme un gâteau à plusieurs couches, reliées par de très nombreuses autoroutes à haute vitesse vers le GPU, permettant un transfert de données ultra-rapide.
HBM3E : actuellement la version principale, utilisée sur la dernière génération de GPU, rapide et avec une consommation électrique maîtrisée.
HBM4 : la prochaine génération, destinée à des GPU plus puissants comme Vera Rubin, avec une bande passante plus élevée et une capacité accrue.
HBM5 : la génération suivante (en planification), visant à augmenter encore la vitesse et la capacité, pour préparer de plus grands modèles futurs.
Autour du GPU Rubin, de nombreux HBM empilés seront intégrés pour permettre au GPU d’accéder à des données à très haute vitesse. La puissance de calcul pour l’entraînement et l’inférence IA dépend entièrement de HBM pour fournir les données, ce qui fait de cette composante la star de la pénurie dans les serveurs IA. Les fabricants ont concentré une grande partie de leur capacité de production sur HBM, ce qui a entraîné une tension sur l’approvisionnement des autres types de mémoire. À l’ère Vera Rubin, HBM est la composante la plus critique de tous les composants.
Explication simplifiée des termes mémoire : SSD
SSD ressemble à une clé USB géante, utilisée pour stocker des données à long terme, sans oublier après extinction. Les fichiers, vidéos, jeux sont stockés dans le SSD (ou disque dur traditionnel). À l’ère Vera Rubin, pour que le chatbot IA se souvienne de beaucoup de textes, dialogues et connaissances, Vera Rubin doit connecter énormément de SSD, formant une bibliothèque de données gigantesque. Citi estime qu’un serveur Vera Rubin doit connecter environ 1 152TB (soit 1 152 disques de 1TB) de SSD pour faire fonctionner le nouveau système ICMS.
Autrefois, le SSD était plutôt un acteur secondaire dans l’entrepôt de données, mais dans l’ICMS / inférence à long contexte, il devient un acteur clé.
Explication simplifiée des termes mémoire : NAND
Le matériau qui stocke réellement les données dans un SSD s’appelle NAND Flash. On peut l’imaginer comme des pages de livres empilées. L’ICMS de Vera Rubin doit utiliser beaucoup de SSD, et dans ces SSD, il y a une multitude de puces NAND, donc l’IA a besoin de beaucoup de NAND. Plus les modèles IA deviennent grands et plus la mémoire de dialogue s’allonge, plus il faut de NAND pour stocker ces textes et résultats intermédiaires.
Explication simplifiée des termes mémoire : DRAM
DRAM est comme un tableau blanc à mémoire à court terme. Lors du calcul, l’ordinateur écrit ses données dans la DRAM, mais une fois éteint, tout est effacé. La vitesse est bien supérieure à celle du SSD, mais tout est oublié après extinction. La DRAM sert de zone de travail pour le CPU / GPU lors des opérations classiques. Elle ne stocke pas directement de longues conversations ou de modèles très volumineux, mais soutient le fonctionnement du système. Cependant, en raison de la concentration de capacité sur HBM, l’approvisionnement en DRAM classique a diminué, entraînant une hausse des prix, voire des pénuries.
Explication simplifiée des termes mémoire : LPDDR5X / DDR5
DDR5 : mémoire principale couramment utilisée dans les serveurs et PC de bureau, plus rapide que DDR4.
LPDDR5X : version à faible consommation pour appareils mobiles ou modules CPU haute densité, on peut la voir comme une « DRAM économe en énergie ».
Les processeurs Rubin, comme ceux de la série CPU, nécessitent beaucoup de LPDDR5X ou DDR5 comme mémoire système pour gérer le contrôle, la planification et les tâches système. Ils ne sont pas directement liés à HBM, mais constituent la base du fonctionnement stable des serveurs IA. En raison de la concentration de capacité sur HBM, l’approvisionnement en DDR5 / LPDDR5X devient tendu, avec une hausse des prix.
Explication simplifiée des termes mémoire : High Bandwidth Flash (HBF)
On peut considérer HBF comme une NAND renforcée en vitesse, visant à faire du Flash (mémoire à haute vitesse) autre chose qu’un stockage lent, mais une mémoire plus rapide. Par rapport à un SSD classique, il met l’accent sur « débit élevé, faible latence », permettant à l’IA d’accéder rapidement à de grands contextes lors de l’inférence.
Dans Vera Rubin, en tant que composant clé de l’ICMS : il s’agit de placer une grande quantité de cache KV et de données de contexte long dans ce type de Flash ultra-rapide, en utilisant des réseaux (RDMA, etc.) pour que le GPU y accède à une vitesse proche de la mémoire locale. C’est la conception G3.5. Elle consiste à faire évoluer le Flash d’un simple stockage à un composant externe capable de participer au traitement.
Vera Rubin génération : restructuration fondamentale de l’architecture matérielle
Conception extrême en collaboration (Extreme Co-design) et calcul à l’échelle de rack
Lors du CES 2026, le discours de Huang Renxun a révélé une idée centrale : dans la génération Rubin, l’unité de calcul n’est plus un seul GPU ou serveur, mais tout un rack de centre de données. La plateforme Rubin comprend six puces principales : Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU et Spectrum-6 Ethernet Switch.
Cette stratégie, appelée conception extrême en collaboration, vise à éliminer les goulets d’étranglement en communication entre puces, transformant le rack Vera Rubin NVL72 en un superordinateur unique doté de 3.6 ExaFLOPS de puissance d’inférence et de 75TB de mémoire à haute vitesse.
Cette évolution n’est pas simplement une accumulation de performances, mais une réponse à la transformation fondamentale des charges de travail IA. De Blackwell à Rubin, les modèles IA ont évolué d’un simple système de questions-réponses à des agents intelligents capables de faire des inférences multi-étapes, de rechercher une mémoire à long terme et d’utiliser des outils. Ces charges de travail exigent que le matériel offre non seulement un débit élevé, mais aussi une latence extrêmement faible et une capacité de conservation de contexte à grande échelle.
Acquisition de Groq et révolution de l’inférence : début d’une ère de fusions défensives et d’ASIC
Fin 2025, NVIDIA a acquis la startup d’IA Groq pour 20 milliards de dollars via une fusion-acquisition de talents et une licence technologique. La technologie clé de Groq, l’architecture LPU (Language Processing Unit), est essentiellement une ASIC optimisée pour les modèles Transformer. Contrairement aux GPU traditionnels dépendant de HBM, Groq utilise de la SRAM (mémoire statique) sur puce et privilégie la compilation.
Dans les scénarios d’interaction en temps réel, cette architecture peut générer des tokens 10 fois plus vite que les GPU traditionnels, avec une efficacité énergétique 10 fois supérieure. NVIDIA souhaite combler le fossé entre inférence à faible latence (Groq LPU est spécialisé) et l’écosystème CUDA. Google (TPU), Amazon (Inferentia) ont déjà prouvé que les puces dédiées offrent un avantage énorme en coût d’inférence, et NVIDIA doit utiliser la technologie Groq pour se défendre.
Le défi du Mur de contexte (The Context Wall)
Dans l’inférence à long contexte, la mémoire KV (KV) est le mécanisme permettant à un modèle IA de se souvenir de l’historique des dialogues. Avec l’extension de la fenêtre de contexte à des millions de tokens, la taille du cache KV croît linéairement, épuisant rapidement la mémoire coûteuse et limitée du GPU HBM (G1). Lorsque le HBM est saturé, les données sont évacuées vers la DRAM système (G2) ou le SSD local (G3). Cela entraîne une crise du cache KV : le GPU doit souvent tourner à vide en attendant les données historiques.
Niveau G3.5 : plateforme de stockage de mémoire pour inférence à long contexte (ICMS)
Dans l’architecture Vera Rubin, la transformation la plus disruptive et la plus profonde dans l’industrie de la mémoire est la naissance du niveau G3.5, c’est-à-dire la plateforme de stockage de mémoire pour inférence à long contexte (ICMS, Inference Context Memory Storage). Cette innovation n’est pas seulement une mise à niveau de l’architecture, mais marque l’avènement de l’ère de l’informatique contextuelle (Context-Aware).
L’ICMS utilise BlueField-4 DPU et Spectrum-X Ethernet pour établir, au niveau du rack (Pod), un tampon partagé basé sur la mémoire flash (Flash). Ce niveau G3.5 se situe entre la DRAM et le stockage traditionnel, utilisant la technologie RDMA (Remote Direct Memory Access) pour permettre au GPU d’accéder à la cache KV dans la mémoire Flash distante à une vitesse proche de celle de la mémoire locale. C’est la conception du G3.5. Elle transforme le Flash d’un simple stockage en un composant externe capable de participer au traitement.
Nouvelles normes technologiques : HBF & AI-SSD (
Pour que NAND Flash puisse supporter des charges de travail quasi-mémoires, l’industrie doit accélérer l’itération technologique, modifiant la trajectoire des principaux fabricants de mémoire.
High Bandwidth Flash )HBF( : pour augmenter la bande passante, SK Hynix et SanDisk collaborent pour développer HBF. Il s’agit d’une technologie de type empilement 3D semblable à HBM, mais utilisant du NAND, visant à offrir un débit plusieurs fois supérieur à celui d’un SSD traditionnel, spécifiquement pour l’inférence IA.
SSD dédié à l’IA )AI-NP( : SK Hynix collabore étroitement avec NVIDIA pour développer un SSD IA capable d’atteindre 100 millions d’IOPS. Cette performance est 100 fois supérieure à celle des SSD haut de gamme actuels, conçue pour répondre aux exigences extrêmes de vitesse de lecture aléatoire de l’ICMS, garantissant que les données soient immédiatement disponibles pour le GPU.
Le niveau G3.5 ICMS est la clé pour faire passer la chaîne de valeur IA de HBM coûteux à NAND Flash. Il résout le problème de la mémoire infinie nécessaire aux agents IA pour traiter des tâches complexes, transformant l’industrie de la mémoire, qui était jusqu’ici cyclique et orientée stockage, en une ressource stratégique indispensable dans l’infrastructure de calcul IA.
Effet inflationniste sur le stockage NVL72 de Vera Rubin
Selon Citi et d’autres analystes, la demande d’ICMS dans l’architecture Vera Rubin est explosive. En plus du stockage standard, l’ICMS piloté par BlueField-4 ajoute environ 16TB de NAND haute vitesse par GPU. Pour un rack NVL72 complet avec 72 GPU, cela représente une demande supplémentaire de 1 152TB (environ 1,15PB) de NAND.
Si, en 2026, 100 000 racks de ce type sont déployés dans le monde, cela générera plus de 115 Exabytes )EB( de NAND supplémentaire, soit environ 12 % de la capacité totale de NAND mondiale en 2025. Cette demande, à la fois massive et exigeante en performance, provoquera une pénurie de SSD d’entreprise, déclenchant un cycle de marché ultra-concurrentiel dominé par les vendeurs.
Cette révolution architecturale propulse le marché de la mémoire dans une « triple supercycle » (hausse des prix du DRAM, pénurie de NAND, épuisement des HBM). Voici une analyse approfondie de la compétitivité des quatre principaux acteurs :
SK Hynix )SK Hynix( : Architecte de l’IA
Position
Dominateur absolu du marché HBM )Part de marché 5~60% en 3E/3E(, allié clé de NVIDIA.
Avantages
Monopole HBM4 : les estimations des analystes indiquent que plus de 70 % des premières commandes HBM4 pour la plateforme Vera Rubin seront prises par SK Hynix, dont la capacité est déjà annoncée comme épuisée pour 2026.
Standard HBF : partenariat avec SanDisk pour promouvoir HBF, visant à faire du NAND une mémoire quasi-mémoires.
SSD AI-NP : développement d’un SSD ultra-performant à 100 millions d’IOPS, conçu pour ICMS.
Inconvénients
SK hynix subit déjà la vague de l’ultra-cycle IA, avec HBM3E / HBM4 presque saturés. En 2026, la société elle-même admet qu’elle pourrait faire face à une correction des prix et à une concurrence accrue. Plusieurs institutions soulignent qu’après 2026, lorsque l’offre HBM s’élargira et que les prix baisseront, SK hynix, fortement dépendant de HBM, sera la plus exposée à une réduction de profit.
Samsung )Samsung( : Contre-attaque de l’empire et avantage en capacité
Position
Fournisseur de solutions complètes, géant de la capacité.
Avantages
HBM4 clé en main : fournisseur offrant un service « mémoire + logique + emballage » en un seul endroit, très attractif pour des clients comme Google ou Amazon qui développent leurs propres puces.
Bénéfice direct pour G3.5 : en tant que plus grand fabricant mondial de NAND, avec la capacité la plus forte en SSD d’entreprise et mémoire CXL (PBSSD), capable de satisfaire à la fois HBM et de vastes besoins de stockage.
Inconvénients
Technologie HBM plus récente, doit reconstruire la confiance des clients dans la génération Rubin ; NAND, bien que volumineux, n’a pas encore le même pouvoir de fixation des prix que HBM.
Micron )Micron( : Bénéficiaire d’efficacité et de géopolitique
Position
Premier choix pour l’IA souveraine américaine, piloté par HBM+NAND.
Avantages
Double avantage : seul fabricant américain avec capacité HBM3E/4 et SSD d’entreprise avancé. Peut profiter simultanément des bénéfices de la mémoire GPU Rubin et de la couche de stockage ICMS.
Efficacité énergétique : les produits HBM revendiquent une économie de 30 % par rapport à la concurrence, répondant aux exigences extrêmes des centres de données IA en matière de TCO.
Avantages géopolitiques : seul fabricant américain, premier choix pour le cloud IA souverain en Amérique du Nord.
Inconvénients
Capacité totale inférieure à celle des grands fabricants coréens, dépendant de la prime technologique pour maintenir une marge élevée, incapable de rivaliser sur les prix.
SanDisk : réévaluation de la valeur du stockage à l’informatique
Position
Le plus grand bénéficiaire du niveau G3.5, en transition vers une société d’infrastructure IA.
Avantages
Le plus pur des acteurs G3.5 : la demande de NAND de 1 152TB par système Rubin représente une croissance pure pour SanDisk. Son SSD d’entreprise Stargate a déjà été certifié par de très grands clients.
Transformation commerciale : après la scission de Western Digital, la stratégie s’est entièrement tournée vers les centres de données (croissance annuelle de 26 %), abandonnant le secteur grand public.
Capacité de fixation des prix : en période de pénurie, le prix du NAND d’entreprise pourrait doubler, offrant à SanDisk une très forte rentabilité.
Inconvénients
Absence de propre usine de wafers, modèle fabless, dépendance à la sous-traitance, capacité de verrouillage de capacité plus faible que celle des IDM.
Analyse prospective avant 2026 : marché des vendeurs de mémoire établi
Nomura et Citi prévoient tous deux qu’en 2026, le marché sera gravement déséquilibré. Les revenus DRAM devraient augmenter de 51 % par an, et le prix contractuel des wafers NAND pourrait doubler. En raison de la pénurie de salles blanches (Cleanroom) et de la consommation de HBM en capacité de wafers (la consommation de HBM étant 3 fois celle du DRAM), la tension sur l’approvisionnement devrait durer jusqu’à mi-2027. Dans cette vague de modernisation de l’industrie, évaluée à 10 000 milliards de dollars, l’émergence de Vera Rubin et de la plateforme ICMS a permis aux fabricants de mémoire de passer du rôle de figurants à celui de protagonistes.
Entre 2026 et 2028, le marché des vendeurs de mémoire, en plus de la limitation de l’expansion de HBM et de la compression de l’ICMS sur les SSD d’entreprise, pourrait voir une autre accélération : la commercialisation anticipée du HBF (NAND empilé à haute bande passante). Les consensus récents dans le monde académique et industriel indiquent que, grâce à la possibilité de réutiliser en partie les processus et la conception accumulés lors de l’ère HBM, l’introduction du HBF pourrait être plus rapide que celle du HBM, avec une intégration dans les principales plateformes accélératrices avant 2027.