La demande en puissance de calcul pour l'inférence augmente rapidement, les entreprises de la chaîne d'approvisionnement accélèrent leur déploiement

LightningPacketLoss · 2026-03-20T13:29:05+00:00

Journal des Valeurs Mobilières - Reporters Wang JingruAvec le passage progressif de la technologie de l'intelligence artificielle générative de la « formation de modèles » aux déploiements commerciaux à grande échelle, la consommation de puissance de calcul centrée sur la formation se transforme progressivement en demande de puissance de calcul continue dominée par l'inférence. Le 17 mars, Huang Renxun, président-directeur général d'NVIDIA, a déclaré lors de la conférence GTC que le point d'inflexion du marché de l'inférence IA est arrivé, l'IA passant entièrement de la phase de formation à la phase d'inférence et d'exécution, avec une demande de puissance de calcul d'inférence connaissant une explosion exponentielle.« Avec l'expansion de l'échelle des applications de l'intelligence artificielle générative, la vitesse de croissance de la demande de puissance de calcul d'inférence pourrait largement dépasser celle de la puissance de calcul de formation. D'une part, l'explosion des besoins applicatifs, l'accélération du déploiement des applications d'IA générative et d'agents intelligents, les interactions fréquentes des utilisateurs générant des requêtes d'inférence exponentielles ; d'autre part, les percées technologiques continues dans les puces d'inférence spécialisées, le refroidissement par liquide et l'interconnexion optique, améliorant significativement l'efficacité de la puissance de calcul et la capacité de concurrence, jetant les bases pour un déploiement à grande échelle. »

LightningPacketLoss

2026-03-20 13:29:05

Société Générale des Informations Financières, Wang Jingru

Alors que la technologie d’intelligence artificielle générative passe progressivement de la « formation du modèle » à une mise en œuvre commerciale à grande échelle, la consommation de puissance de calcul centrée sur la formation se tourne de plus en plus vers une demande continue de puissance de calcul axée sur l’inférence. Le 17 mars, Jensen Huang, PDG de Nvidia, a déclaré lors de la conférence GTC que le point de basculement du marché de l’inférence IA était arrivé, l’IA passant de la phase d’entraînement à celle d’inférence et d’exécution, avec une explosion exponentielle de la demande en puissance d’inférence.

« Avec l’expansion de l’application de l’intelligence artificielle générative, la vitesse de croissance de la demande en puissance d’inférence pourrait dépasser largement celle de la puissance d’entraînement. D’une part, la demande explose, l’IA générative et les applications d’agents intelligents se déploient rapidement, et les interactions fréquentes des utilisateurs génèrent des demandes d’inférence exponentielles ; d’autre part, les technologies telles que les puces d’inférence dédiées, le refroidissement liquide et l’interconnexion optique continuent de progresser, améliorant significativement l’efficacité de la puissance de calcul et la capacité de traitement simultané, posant ainsi les bases d’un déploiement à grande échelle », a déclaré Zhang Pengyuan, chercheur chez Shenzhen Qianhai PaiPai Network Fund Sales Co., Ltd., à un journaliste du « Securities Daily ».

Selon les prévisions des institutions du secteur, l’importance de la puissance d’inférence continue de croître. IDC prévoit qu’en 2027, la part de la puissance d’inférence en Chine représentera plus de 70 % de la puissance totale. Huang Chao, fondateur et PDG de China IDC Circle, a indiqué qu’en 2026, l’industrie des agents intelligents entrerait dans une phase de développement florissante, la puissance de calcul passant d’une « domination de l’entraînement » à une « conduite par l’inférence », et que la période d’explosion de la demande en puissance d’inférence était sur le point d’arriver pleinement.

Face à la croissance rapide de la demande en puissance d’inférence, les entreprises en amont et en aval de la chaîne industrielle nationale accélèrent la recherche technologique et le déploiement de produits. Sur le plan des puces, plusieurs fabricants lancent des puces optimisées pour les scénarios d’inférence. Par rapport aux puces d’entraînement traditionnelles, les puces d’inférence mettent davantage l’accent sur la gestion de la consommation d’énergie, l’efficacité des coûts et la flexibilité de déploiement, offrant ainsi un large espace d’application dans le cloud et en périphérie.

Prenons l’exemple de Shenzhen Cloud Tianli Fei Technology Co., Ltd. (ci-après « Cloud Tianli Fei »), qui se concentre sur le NPU et a défini la trajectoire technologique GPNPU pour ses puces de grande puissance dans les scénarios d’inférence cloud. La société a profondément optimisé les unités matricielles, vectorielles, les niveaux de stockage et l’utilisation de la bande passante effective, visant à réduire exponentiellement le coût par token et à accélérer la mise en œuvre à grande échelle des applications de grands modèles.

En 2025, Cloud Tianli Fei a réalisé un chiffre d’affaires de 1,308 milliard de yuans, en hausse de 42,57 %. Un responsable de l’entreprise a déclaré à un journaliste du « Securities Daily » : « Pour les entreprises, à mesure que la concurrence dans l’industrie se déplace de la taille de l’entraînement vers l’efficacité de l’inférence, le coût de livraison et la rentabilité du système, ceux qui parviennent à coordonner plus tôt le matériel, le stockage et les logiciels auront plus de chances de prendre l’initiative à l’ère de l’inférence. »

Au niveau des serveurs et des systèmes, les principaux fabricants continuent également de lancer des plateformes de puissance optimisées pour l’inférence. Par exemple, Inspur Electronics Information Industry Co., Ltd. a lancé le serveur d’inférence YuanNao R1, capable de supporter 16 cartes PCIe doubles largeurs standard, permettant de déployer le modèle DeepSeek-671B sur une seule machine ; ils ont aussi lancé le serveur d’inférence YuanNao CPU, qui peut déployer rapidement et faire fonctionner efficacement de nouveaux modèles d’inférence tels que DeepSeek-R132B et QwQ-32B.

Parallèlement, la construction d’infrastructures de puissance de calcul s’accélère également. Autrefois, de nombreux centres de calcul intelligents en Chine adoptaient un mode de construction intégré pour la formation et l’inférence. Le 12 mars, Cloud Tianli Fei a remporté le projet d’infrastructure de soutien à la nouvelle productivité de l’IA à Zhanjiang, Guangdong, qui se concentre sur une grappe d’inférence IA dédiée aux tâches d’inférence, principalement destinée à divers scénarios d’application industrielle, fournissant un exemple concret pour la transformation numérique des industries traditionnelles en Chine.

He Li, directeur général de Beijing Zhi Yu Zhi Shan Investment Management Co., Ltd., pense que dans cette révolution, les puces d’inférence haute performance, la HBM et les logiciels de pile complète bénéficieront en premier lieu des dividendes de puissance. Les scénarios d’inférence exigent une faible latence, un débit élevé et une efficacité énergétique, et les architectures spécialisées telles que LPU et ASIC accéléreront le remplacement des unités de calcul universelles, tandis que la mémoire HBM4 deviendra essentielle pour dépasser les goulots d’étranglement de la bande passante. Par ailleurs, la puissance de calcul se déplace du centre de données vers la périphérie, avec une demande accrue pour des racks d’inférence à haute densité et des technologies de refroidissement avancées, combinées à la quantification des modèles et à la compression des paramètres pour favoriser une transition de l’empilement matériel vers une synergie matériel-logiciel.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.