DeepSeek s'associe à Qingbei pour une publication majeure et solide : renforcer l'infrastructure fondamentale des agents intelligents, dépasser le goulot d'étranglement de l'entrée/sortie du raisonnement des agents !
Avant la sortie de DeepSeek V4, un article de recherche essentiel est publié
Les grands modèles évoluent rapidement d’un robot conversationnel à tour unique vers un agent capable de planifier de manière autonome, d’appeler des outils et de résoudre des problèmes concrets. Cependant, cette transformation provoque une grande secousse dans l’architecture de calcul sous-jacente.
Lorsque de grands modèles interagissent avec leur environnement sur de longues périodes, avec des dizaines voire des centaines de tours, le goulet d’étranglement du calcul passe de la puissance GPU à la bande passante d’E/S de stockage. En n’ajoutant que très peu de tokens à chaque fois, le taux de hit du KV-Cache est très élevé (souvent supérieur à 95%), ce qui entraîne que beaucoup de temps GPU est consacré à attendre la lecture de vastes données KV-Cache historiques depuis le stockage externe.
Pour briser cette impasse, DeepSeek, en collaboration avec des équipes de Peking University et Tsinghua, a proposé un tout nouveau système d’inférence pour grands modèles — DualPath.
Ce système introduit un mécanisme de chargement « double voie » du KV-Cache, exploitant intelligemment la bande passante réseau inutilisée du cluster, augmentant ainsi le débit d’inférence hors ligne du modèle Agentic jusqu’à 1,87 fois, et le débit en ligne en moyenne de 1,96 fois.
Actuellement, cette recherche a été validée à grande échelle sur un cluster comportant jusqu’à 1152 GPU, supportant des modèles de pointe tels que DeepSeek-V3.2 660B.
Pourquoi y a-t-il un goulet d’étranglement sévère en E/S ?
Pour comprendre l’innovation DualPath, il faut d’abord identifier les points faibles de l’architecture existante.
Dans un parcours typique d’agent, le modèle reçoit une séquence de prompts comprenant le contexte précédent et de nouveaux tokens, puis génère la prochaine action.
Ce mode à plusieurs tours, avec de courtes additions, fait rapidement croître la longueur du contexte, pouvant atteindre un million de tokens. En raison des capacités limitées de la mémoire vidéo (HBM) et de la mémoire principale (DRAM), le KV-Cache massif doit être stocké sur un stockage externe moins coûteux mais plus lent, comme un SSD.
Les systèmes modernes d’inférence de grands modèles utilisent généralement une architecture séparant le pré-remplissage (Prefill) du décodage (Decode). La phase de pré-remplissage charge le prompt et le KV-Cache correspondant, tandis que le décodage génère les tokens un par un.
Le problème se situe précisément ici.
Comme illustré à gauche de la figure 1, dans le système actuel, tous les KV-Cache sont directement chargés depuis le stockage externe vers le nœud de pré-remplissage. Cela crée un déséquilibre extrême : la bande passante du réseau de stockage (SNIC) du nœud de pré-remplissage est saturée, devenant le goulot d’étranglement absolu du système ; en même temps, la bande passante du stockage du nœud de décodage reste largement inutilisée.
De plus, l’évolution du matériel aggrave ce problème. La figure 3 à gauche montre que la croissance de la puissance de calcul GPU (FLOPS) dépasse largement celle de la bande passante réseau et de la capacité de la mémoire vidéo, entraînant un déséquilibre critique entre calcul et I/O.
DualPath : double voie pour briser le plafond de bande passante
Puisque la bande passante du stockage du nœud de décodage est inutilisée, pourquoi ne pas l’exploiter ? C’est précisément l’idée centrale de DualPath.
L’équipe de recherche a reconstruit l’architecture de chargement du KV-Cache, en créant, en plus du chemin traditionnel stockage->pré-remplissage, une nouvelle voie « stockage->décodage->pré-remplissage ».
Chemin de lecture de pré-remplissage : le KV-Cache est lu depuis le stockage persistant vers la mémoire tampon du nœud de pré-remplissage, puis transféré vers la mémoire GPU pour le calcul, et enfin le KV-Cache complet est transmis au nœud de décodage.
Chemin de lecture de décodage : le KV-Cache est d’abord lu depuis le stockage persistant vers la mémoire tampon du nœud de décodage. Pendant la phase de pré-remplissage, ces données sont transmises via un réseau de calcul à haute vitesse (technologie RDMA) entre les nœuds, en mode flux hiérarchique, vers le nœud de pré-remplissage pour le traitement.
En ajustant dynamiquement le flux de données entre ces deux chemins, DualPath transforme la pression d’E/S d’un seul nœud en une répartition de charge dans un pool de ressources global, agrégeant ainsi toute la bande passante de stockage disponible.
Surmonter les défis de mise en œuvre : isolation du flux et orchestration dynamique
L’idée est simple, mais sa mise en œuvre dans un système d’inférence de grands modèles, sensible à des latences de l’ordre de la milliseconde, pose des défis techniques importants.
Premier défi : la perturbation du trafic réseau.
L’ajout d’un transfert KV-Cache supplémentaire peut entrer en conflit avec des opérations critiques de communication collective lors de l’inférence (par exemple, AllToAll dans l’architecture MoE), ralentissant l’ensemble du processus.
Pour cela, DualPath a conçu un mécanisme de gestion du trafic centré sur la carte réseau de calcul (CNIC). Tout le trafic entrant et sortant du GPU (y compris la copie entre CPU et GPU) est forcé de passer par la CNIC, avec une gestion QoS stricte via des canaux virtuels (par exemple, InfiniBand). La communication d’inférence est prioritaire sur un canal à 99% de bande passante, tandis que le transfert KV-Cache utilise un canal à priorité inférieure, ne s’activant que lorsque le réseau de calcul est inactif, assurant une isolation parfaite du trafic.
Deuxième défi : l’équilibrage de charge dynamique.
Face à des requêtes variées, le système doit décider en temps réel quelle voie de lecture utiliser pour chaque requête, en tenant compte de la longueur des files d’attente du réseau et de la charge de calcul GPU.
DualPath introduit un ordonnanceur adaptatif (voir la figure 5). Il surveille la longueur des files d’attente de lecture sur chaque nœud, et utilise le nombre de tokens comme indicateur principal de charge. Le système classe les nœuds en trois catégories : surcharge, faible lecture, et forte lecture, en priorisant l’attribution de nouvelles tâches aux nœuds à faible charge.
De plus, à l’intérieur des nœuds, une estimation du temps d’exécution permet de regrouper les requêtes à durée similaire dans un même lot, minimisant ainsi le temps d’attente du GPU lors de la synchronisation.
Le débit est presque doublé, permettant une extension à l’échelle du millier de modèles
L’équipe de recherche a évalué en détail DualPath sur un cluster NVIDIA Hopper doté d’un réseau InfiniBand et d’un stockage distribué 3FS. Les modèles testés incluent DeepSeek-V3.2 660B, DS 27B, et Qwen2.5-32B, avec des données de trajectoires d’environnement d’apprentissage renforcé réels.
Performance en inférence hors ligne (par exemple, lors de la phase de Rollout en RL) :
Dans divers scénarios de nombre d’agents simultanés et de longueur de contexte maximale, DualPath surpasse largement la baseline. Lors du traitement du modèle DeepSeek 660B, le temps de traitement est considérablement réduit, avec un débit maximum augmenté de 1,87 fois.
En augmentant la longueur des tokens ajoutés à chaque tour ou la longueur de génération, DualPath maintient une performance stable, prouvant qu’il élimine efficacement le goulet d’étranglement du réseau de stockage.
Performance en service en ligne :
En respectant un SLA strict avec un délai de première réponse inférieur à 4 secondes, la capacité à gérer des requêtes soudaines est grandement améliorée. La demande maximale supportée (APS) par DualPath est jusqu’à 2,25 fois celle de la baseline, tout en maintenant une latence de génération très faible. Les expériences d’ablation confirment que le mécanisme de chargement double voie et l’ordonnancement adaptatif sont les facteurs clés de cette amélioration.
Extensibilité à grande échelle :
Ce système ne se limite pas aux petits clusters. Sur un grand cluster avec 1152 GPU (48 nœuds de pré-remplissage, 96 nœuds de décodage), DualPath continue d’offrir une extension quasi linéaire des performances.
En remodelant le flux de données sous-jacent, DualPath ouvre la voie à une infrastructure de calcul ultra-rapide pour l’ère des grands modèles Agentic à venir.
Source : AI Cambrian
Avertissements et clauses de non-responsabilité
Le marché comporte des risques, l’investissement doit être prudent. Cet article ne constitue pas un conseil d’investissement personnel, ni une recommandation spécifique adaptée à chaque utilisateur. L’utilisateur doit juger si les avis, opinions ou conclusions présentés conviennent à sa situation particulière. En investissant sur cette base, il en assume l’entière responsabilité.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
DeepSeek s'associe à Qingbei pour une publication majeure et solide : renforcer l'infrastructure fondamentale des agents intelligents, dépasser le goulot d'étranglement de l'entrée/sortie du raisonnement des agents !
Avant la sortie de DeepSeek V4, un article de recherche essentiel est publié
Les grands modèles évoluent rapidement d’un robot conversationnel à tour unique vers un agent capable de planifier de manière autonome, d’appeler des outils et de résoudre des problèmes concrets. Cependant, cette transformation provoque une grande secousse dans l’architecture de calcul sous-jacente.
Lorsque de grands modèles interagissent avec leur environnement sur de longues périodes, avec des dizaines voire des centaines de tours, le goulet d’étranglement du calcul passe de la puissance GPU à la bande passante d’E/S de stockage. En n’ajoutant que très peu de tokens à chaque fois, le taux de hit du KV-Cache est très élevé (souvent supérieur à 95%), ce qui entraîne que beaucoup de temps GPU est consacré à attendre la lecture de vastes données KV-Cache historiques depuis le stockage externe.
Pour briser cette impasse, DeepSeek, en collaboration avec des équipes de Peking University et Tsinghua, a proposé un tout nouveau système d’inférence pour grands modèles — DualPath.
Ce système introduit un mécanisme de chargement « double voie » du KV-Cache, exploitant intelligemment la bande passante réseau inutilisée du cluster, augmentant ainsi le débit d’inférence hors ligne du modèle Agentic jusqu’à 1,87 fois, et le débit en ligne en moyenne de 1,96 fois.
Actuellement, cette recherche a été validée à grande échelle sur un cluster comportant jusqu’à 1152 GPU, supportant des modèles de pointe tels que DeepSeek-V3.2 660B.
Pourquoi y a-t-il un goulet d’étranglement sévère en E/S ?
Pour comprendre l’innovation DualPath, il faut d’abord identifier les points faibles de l’architecture existante.
Dans un parcours typique d’agent, le modèle reçoit une séquence de prompts comprenant le contexte précédent et de nouveaux tokens, puis génère la prochaine action.
Ce mode à plusieurs tours, avec de courtes additions, fait rapidement croître la longueur du contexte, pouvant atteindre un million de tokens. En raison des capacités limitées de la mémoire vidéo (HBM) et de la mémoire principale (DRAM), le KV-Cache massif doit être stocké sur un stockage externe moins coûteux mais plus lent, comme un SSD.
Les systèmes modernes d’inférence de grands modèles utilisent généralement une architecture séparant le pré-remplissage (Prefill) du décodage (Decode). La phase de pré-remplissage charge le prompt et le KV-Cache correspondant, tandis que le décodage génère les tokens un par un.
Le problème se situe précisément ici.
Comme illustré à gauche de la figure 1, dans le système actuel, tous les KV-Cache sont directement chargés depuis le stockage externe vers le nœud de pré-remplissage. Cela crée un déséquilibre extrême : la bande passante du réseau de stockage (SNIC) du nœud de pré-remplissage est saturée, devenant le goulot d’étranglement absolu du système ; en même temps, la bande passante du stockage du nœud de décodage reste largement inutilisée.
De plus, l’évolution du matériel aggrave ce problème. La figure 3 à gauche montre que la croissance de la puissance de calcul GPU (FLOPS) dépasse largement celle de la bande passante réseau et de la capacité de la mémoire vidéo, entraînant un déséquilibre critique entre calcul et I/O.
DualPath : double voie pour briser le plafond de bande passante
Puisque la bande passante du stockage du nœud de décodage est inutilisée, pourquoi ne pas l’exploiter ? C’est précisément l’idée centrale de DualPath.
L’équipe de recherche a reconstruit l’architecture de chargement du KV-Cache, en créant, en plus du chemin traditionnel stockage->pré-remplissage, une nouvelle voie « stockage->décodage->pré-remplissage ».
Chemin de lecture de pré-remplissage : le KV-Cache est lu depuis le stockage persistant vers la mémoire tampon du nœud de pré-remplissage, puis transféré vers la mémoire GPU pour le calcul, et enfin le KV-Cache complet est transmis au nœud de décodage.
Chemin de lecture de décodage : le KV-Cache est d’abord lu depuis le stockage persistant vers la mémoire tampon du nœud de décodage. Pendant la phase de pré-remplissage, ces données sont transmises via un réseau de calcul à haute vitesse (technologie RDMA) entre les nœuds, en mode flux hiérarchique, vers le nœud de pré-remplissage pour le traitement.
En ajustant dynamiquement le flux de données entre ces deux chemins, DualPath transforme la pression d’E/S d’un seul nœud en une répartition de charge dans un pool de ressources global, agrégeant ainsi toute la bande passante de stockage disponible.
Surmonter les défis de mise en œuvre : isolation du flux et orchestration dynamique
L’idée est simple, mais sa mise en œuvre dans un système d’inférence de grands modèles, sensible à des latences de l’ordre de la milliseconde, pose des défis techniques importants.
Premier défi : la perturbation du trafic réseau.
L’ajout d’un transfert KV-Cache supplémentaire peut entrer en conflit avec des opérations critiques de communication collective lors de l’inférence (par exemple, AllToAll dans l’architecture MoE), ralentissant l’ensemble du processus.
Pour cela, DualPath a conçu un mécanisme de gestion du trafic centré sur la carte réseau de calcul (CNIC). Tout le trafic entrant et sortant du GPU (y compris la copie entre CPU et GPU) est forcé de passer par la CNIC, avec une gestion QoS stricte via des canaux virtuels (par exemple, InfiniBand). La communication d’inférence est prioritaire sur un canal à 99% de bande passante, tandis que le transfert KV-Cache utilise un canal à priorité inférieure, ne s’activant que lorsque le réseau de calcul est inactif, assurant une isolation parfaite du trafic.
Deuxième défi : l’équilibrage de charge dynamique.
Face à des requêtes variées, le système doit décider en temps réel quelle voie de lecture utiliser pour chaque requête, en tenant compte de la longueur des files d’attente du réseau et de la charge de calcul GPU.
DualPath introduit un ordonnanceur adaptatif (voir la figure 5). Il surveille la longueur des files d’attente de lecture sur chaque nœud, et utilise le nombre de tokens comme indicateur principal de charge. Le système classe les nœuds en trois catégories : surcharge, faible lecture, et forte lecture, en priorisant l’attribution de nouvelles tâches aux nœuds à faible charge.
De plus, à l’intérieur des nœuds, une estimation du temps d’exécution permet de regrouper les requêtes à durée similaire dans un même lot, minimisant ainsi le temps d’attente du GPU lors de la synchronisation.
Le débit est presque doublé, permettant une extension à l’échelle du millier de modèles
L’équipe de recherche a évalué en détail DualPath sur un cluster NVIDIA Hopper doté d’un réseau InfiniBand et d’un stockage distribué 3FS. Les modèles testés incluent DeepSeek-V3.2 660B, DS 27B, et Qwen2.5-32B, avec des données de trajectoires d’environnement d’apprentissage renforcé réels.
Performance en inférence hors ligne (par exemple, lors de la phase de Rollout en RL) :
Dans divers scénarios de nombre d’agents simultanés et de longueur de contexte maximale, DualPath surpasse largement la baseline. Lors du traitement du modèle DeepSeek 660B, le temps de traitement est considérablement réduit, avec un débit maximum augmenté de 1,87 fois.
En augmentant la longueur des tokens ajoutés à chaque tour ou la longueur de génération, DualPath maintient une performance stable, prouvant qu’il élimine efficacement le goulet d’étranglement du réseau de stockage.
Performance en service en ligne :
En respectant un SLA strict avec un délai de première réponse inférieur à 4 secondes, la capacité à gérer des requêtes soudaines est grandement améliorée. La demande maximale supportée (APS) par DualPath est jusqu’à 2,25 fois celle de la baseline, tout en maintenant une latence de génération très faible. Les expériences d’ablation confirment que le mécanisme de chargement double voie et l’ordonnancement adaptatif sont les facteurs clés de cette amélioration.
Extensibilité à grande échelle :
Ce système ne se limite pas aux petits clusters. Sur un grand cluster avec 1152 GPU (48 nœuds de pré-remplissage, 96 nœuds de décodage), DualPath continue d’offrir une extension quasi linéaire des performances.
En remodelant le flux de données sous-jacent, DualPath ouvre la voie à une infrastructure de calcul ultra-rapide pour l’ère des grands modèles Agentic à venir.
Source : AI Cambrian
Avertissements et clauses de non-responsabilité