DeepSeek junto con Qingbei presentan una importante y sólida publicación: centrada en la infraestructura básica de agentes inteligentes, ¡rompiendo el cuello de botella de I/O en el razonamiento de agentes!
Antes del lanzamiento de DeepSeek V4, se publica un artículo técnico de gran peso
Los grandes modelos están evolucionando rápidamente de simples chatbots de una sola ronda a agentes capaces de planificar de forma autónoma, llamar a herramientas y resolver problemas reales. Sin embargo, esta transformación ha provocado un gran terremoto en la arquitectura de computación subyacente.
Cuando los grandes modelos interactúan con el entorno durante decenas o incluso cientos de turnos en un contexto prolongado, el cuello de botella en el cálculo pasa de la potencia de la GPU ael ancho de banda de entrada/salida del almacenamiento. Debido a que solo se añaden unos pocos tokens en cada paso, la tasa de aciertos en la KV-Cache es extremadamente alta (generalmente superior al 95%), lo que hace que la GPU pase mucho tiempo esperando leer grandes volúmenes de datos históricos de KV-Cache desde el almacenamiento externo.
Para romper este estancamiento, DeepSeek, en colaboración con equipos de investigación de Peking University y Tsinghua, ha propuesto un sistema de inferencia de grandes modelos completamente nuevo: DualPath.
Este sistema introduce un mecanismo de carga de KV-Cache de “doble ruta”, aprovechando de manera ingeniosa el ancho de banda de red inactivo en el clúster, elevando la capacidad de inferencia offline del modelo Agentic hasta 1.87 veces y aumentando en promedio la capacidad de servicio en línea en 1.96 veces.
Actualmente, esta investigación ha sido validada a gran escala en un clúster con hasta 1152 GPUs, soportando modelos de gran tamaño como DeepSeek-V3.2 660B y otros modelos líderes.
¿Por qué surge un severo cuello de botella en I/O?
Para entender las innovaciones de DualPath, primero hay que identificar los puntos débiles de la arquitectura actual.
En un típico recorrido de agente, el modelo recibe un prompt que incluye el contexto previo y tokens añadidos recientemente, y genera la siguiente acción.
Este patrón de múltiples turnos y adiciones cortas hace que la longitud del contexto crezca rápidamente, llegando incluso a millones de tokens. Debido a las limitaciones de la memoria de la GPU (HBM) y la memoria principal (DRAM), la gran cantidad de KV-Cache debe almacenarse en almacenamiento externo más barato pero más lento, como SSD.
Los sistemas modernos de inferencia de grandes modelos generalmente usan una arquitectura separada de Prefill-Decode (prellenado y decodificación). La etapa de prellenado se encarga de procesar el prompt y cargar la KV-Cache que coincide, mientras que la decodificación genera tokens uno a uno.
El problema está justo aquí.
Como se muestra en la izquierda de la Figura 1, en los sistemas existentes, toda la KV-Cache se carga directamente desde el almacenamiento externo a la nodo de prellenado. Esto provoca un desequilibrio extremo: el ancho de banda de la tarjeta de red del nodo de prellenado (SNIC) se satura completamente, convirtiéndose en el cuello de botella absoluto del sistema; mientras tanto, la tarjeta de red del nodo de decodificación permanece en gran medida inactiva.
Además, la tendencia en hardware también agrava esta contradicción. Como se observa en la ruta de evolución del hardware NVIDIA en la izquierda de la Figura 3, el crecimiento en potencia de cálculo (FLOPS) de la GPU supera con creces el aumento en ancho de banda de red y capacidad de memoria, provocando un desequilibrio severo entre cálculo y I/O.
DualPath: doble ruta para romper el techo de ancho de banda
Dado que la tarjeta de red del nodo de decodificación está inactiva, ¿por qué no aprovecharla? Esa es la idea central de DualPath.
El equipo de investigación ha reestructurado la arquitectura de carga de KV-Cache, creando además una nueva vía de carga de doble ruta: “almacenamiento -> decodificación -> prellenado”, además de la tradicional.
Ruta de lectura de prellenado: la KV-Cache se lee desde el almacenamiento persistente hacia el búfer de memoria del nodo de prellenado, luego se transfiere a la memoria de la GPU para el cálculo, y finalmente se pasa toda la KV-Cache al nodo de decodificación.
Ruta de lectura de decodificación: la KV-Cache primero se lee desde el almacenamiento persistente hacia el búfer de memoria del nodo de decodificación. En la fase de prellenado, estos datos se transmiten mediante una red de cálculo de alta velocidad (usando tecnología RDMA) en modo de flujo jerárquico a los nodos de prellenado para su procesamiento.
Mediante la asignación dinámica del flujo de datos en estas dos rutas, DualPath convierte la carga de I/O originalmente concentrada en un solo nodo en una distribución de carga en un pool de recursos global, logrando así agregar toda la capacidad de ancho de banda de almacenamiento de todos los nodos.
Superando desafíos de implementación: aislamiento de tráfico y programación dinámica
La idea es sencilla, pero implementarla en un sistema de inferencia de modelos de latencia en el orden de milisegundos, requiere resolver desafíos técnicos muy complejos.
El primer desafío es la interferencia en el tráfico de red.
La introducción de la transferencia adicional de KV-Cache puede interferir con comunicaciones clave durante la inferencia, como las operaciones AllToAll en arquitecturas MoE, ralentizando el proceso.
Para ello, DualPath diseña un mecanismo de gestión de tráfico centrado en la tarjeta de red de cálculo (CNIC). Todo el tráfico hacia y desde la GPU (incluyendo copias entre host y dispositivo) pasa obligatoriamente por la tarjeta de cálculo, y se implementa un control estricto de calidad de servicio (QoS) usando tecnologías de red subyacentes como canales virtuales en InfiniBand. La comunicación de inferencia se asigna a un canal de alta prioridad con el 99% del ancho de banda, mientras que la transferencia de KV-Cache se realiza en canales de baja prioridad, solo en momentos de inactividad de la red, logrando un aislamiento de tráfico perfecto.
El segundo desafío es el balance de carga dinámico.
Frente a solicitudes complejas y variables, el sistema debe decidir en tiempo real qué ruta de lectura usar para cada solicitud, considerando la longitud de las colas en las tarjetas de red y la carga de cálculo en la GPU.
DualPath introduce un programador de solicitudes adaptativo (como se muestra en la Figura 5). Este monitoriza las colas de lectura en disco de cada nodo y usa la cantidad de tokens como principal métrica de carga. Divide los nodos en tres categorías: sobrecargados, con colas cortas y con colas largas, priorizando la asignación de nuevas tareas a los nodos con colas cortas y sin sobrecarga.
Además, dentro de los nodos, el sistema realiza una programación basada en una estimación del tiempo de ejecución, agrupando solicitudes con tiempos similares en un mismo lote, para reducir al mínimo los “burbujas” de cálculo que generan esperas en la GPU.
Capacidad de rendimiento casi duplicada, escalabilidad a miles de modelos
El equipo de investigación evaluó exhaustivamente DualPath en un clúster de GPUs NVIDIA Hopper con red InfiniBand y almacenamiento distribuido 3FS. Los modelos probados incluyen DeepSeek-V3.2 660B, DS 27B y Qwen2.5-32B, usando datos reales de trayectorias de entornos de aprendizaje reforzado con agentes inteligentes.
Rendimiento en inferencia offline por lotes (como en la fase de Rollout en RL):
Con diferentes niveles de concurrencia de agentes y longitudes máximas de contexto, DualPath mostró ventajas abrumadoras frente a la línea base. En el caso del modelo DeepSeek 660B, redujo significativamente el tiempo de finalización de tareas, alcanzando hasta 1.87 veces más de throughput.
A medida que aumenta la longitud de tokens añadidos en cada ronda o la longitud de generación, DualPath mantiene un rendimiento estable, demostrando que elimina efectivamente los cuellos de botella en la red de almacenamiento.
Rendimiento en servicio en línea:
Con un acuerdo de nivel de servicio que exige una latencia de primer byte menor a 4 segundos, la capacidad del sistema para manejar solicitudes de picos aumentó considerablemente. DualPath soporta hasta 2.25 veces más solicitudes por segundo (APS) que la línea base, manteniendo una latencia de generación final muy baja. Los experimentos de ablación confirman que las rutas dobles y la programación adaptativa son los factores clave para la mejora del rendimiento.
Escalabilidad a gran escala:
El sistema no solo funciona excelentemente en pequeños clústeres, sino que también mantiene una escalabilidad casi lineal en entornos con inmensa capacidad computacional. En pruebas con un gran clúster de 1152 GPUs (48 nodos de prellenado y 96 de decodificación), DualPath sigue logrando un crecimiento de rendimiento casi lineal.
Al reconfigurar el flujo de datos en sus niveles más profundos, DualPath allana el camino para la infraestructura necesaria en la era de los grandes modelos Agentic, acercando la inferencia ultrarrápida a la realidad.
Fuente: AI Cambrian
Aviso de riesgo y exención de responsabilidad
El mercado tiene riesgos, invierta con precaución. Este artículo no constituye asesoramiento de inversión personal y no considera objetivos, situación financiera o necesidades particulares de los usuarios. Los usuarios deben evaluar si las opiniones, puntos de vista o conclusiones aquí presentadas se ajustan a su situación específica. La inversión es bajo su propio riesgo.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
DeepSeek junto con Qingbei presentan una importante y sólida publicación: centrada en la infraestructura básica de agentes inteligentes, ¡rompiendo el cuello de botella de I/O en el razonamiento de agentes!
Antes del lanzamiento de DeepSeek V4, se publica un artículo técnico de gran peso
Los grandes modelos están evolucionando rápidamente de simples chatbots de una sola ronda a agentes capaces de planificar de forma autónoma, llamar a herramientas y resolver problemas reales. Sin embargo, esta transformación ha provocado un gran terremoto en la arquitectura de computación subyacente.
Cuando los grandes modelos interactúan con el entorno durante decenas o incluso cientos de turnos en un contexto prolongado, el cuello de botella en el cálculo pasa de la potencia de la GPU ael ancho de banda de entrada/salida del almacenamiento. Debido a que solo se añaden unos pocos tokens en cada paso, la tasa de aciertos en la KV-Cache es extremadamente alta (generalmente superior al 95%), lo que hace que la GPU pase mucho tiempo esperando leer grandes volúmenes de datos históricos de KV-Cache desde el almacenamiento externo.
Para romper este estancamiento, DeepSeek, en colaboración con equipos de investigación de Peking University y Tsinghua, ha propuesto un sistema de inferencia de grandes modelos completamente nuevo: DualPath.
Este sistema introduce un mecanismo de carga de KV-Cache de “doble ruta”, aprovechando de manera ingeniosa el ancho de banda de red inactivo en el clúster, elevando la capacidad de inferencia offline del modelo Agentic hasta 1.87 veces y aumentando en promedio la capacidad de servicio en línea en 1.96 veces.
Actualmente, esta investigación ha sido validada a gran escala en un clúster con hasta 1152 GPUs, soportando modelos de gran tamaño como DeepSeek-V3.2 660B y otros modelos líderes.
¿Por qué surge un severo cuello de botella en I/O?
Para entender las innovaciones de DualPath, primero hay que identificar los puntos débiles de la arquitectura actual.
En un típico recorrido de agente, el modelo recibe un prompt que incluye el contexto previo y tokens añadidos recientemente, y genera la siguiente acción.
Este patrón de múltiples turnos y adiciones cortas hace que la longitud del contexto crezca rápidamente, llegando incluso a millones de tokens. Debido a las limitaciones de la memoria de la GPU (HBM) y la memoria principal (DRAM), la gran cantidad de KV-Cache debe almacenarse en almacenamiento externo más barato pero más lento, como SSD.
Los sistemas modernos de inferencia de grandes modelos generalmente usan una arquitectura separada de Prefill-Decode (prellenado y decodificación). La etapa de prellenado se encarga de procesar el prompt y cargar la KV-Cache que coincide, mientras que la decodificación genera tokens uno a uno.
El problema está justo aquí.
Como se muestra en la izquierda de la Figura 1, en los sistemas existentes, toda la KV-Cache se carga directamente desde el almacenamiento externo a la nodo de prellenado. Esto provoca un desequilibrio extremo: el ancho de banda de la tarjeta de red del nodo de prellenado (SNIC) se satura completamente, convirtiéndose en el cuello de botella absoluto del sistema; mientras tanto, la tarjeta de red del nodo de decodificación permanece en gran medida inactiva.
Además, la tendencia en hardware también agrava esta contradicción. Como se observa en la ruta de evolución del hardware NVIDIA en la izquierda de la Figura 3, el crecimiento en potencia de cálculo (FLOPS) de la GPU supera con creces el aumento en ancho de banda de red y capacidad de memoria, provocando un desequilibrio severo entre cálculo y I/O.
DualPath: doble ruta para romper el techo de ancho de banda
Dado que la tarjeta de red del nodo de decodificación está inactiva, ¿por qué no aprovecharla? Esa es la idea central de DualPath.
El equipo de investigación ha reestructurado la arquitectura de carga de KV-Cache, creando además una nueva vía de carga de doble ruta: “almacenamiento -> decodificación -> prellenado”, además de la tradicional.
Ruta de lectura de prellenado: la KV-Cache se lee desde el almacenamiento persistente hacia el búfer de memoria del nodo de prellenado, luego se transfiere a la memoria de la GPU para el cálculo, y finalmente se pasa toda la KV-Cache al nodo de decodificación.
Ruta de lectura de decodificación: la KV-Cache primero se lee desde el almacenamiento persistente hacia el búfer de memoria del nodo de decodificación. En la fase de prellenado, estos datos se transmiten mediante una red de cálculo de alta velocidad (usando tecnología RDMA) en modo de flujo jerárquico a los nodos de prellenado para su procesamiento.
Mediante la asignación dinámica del flujo de datos en estas dos rutas, DualPath convierte la carga de I/O originalmente concentrada en un solo nodo en una distribución de carga en un pool de recursos global, logrando así agregar toda la capacidad de ancho de banda de almacenamiento de todos los nodos.
Superando desafíos de implementación: aislamiento de tráfico y programación dinámica
La idea es sencilla, pero implementarla en un sistema de inferencia de modelos de latencia en el orden de milisegundos, requiere resolver desafíos técnicos muy complejos.
El primer desafío es la interferencia en el tráfico de red.
La introducción de la transferencia adicional de KV-Cache puede interferir con comunicaciones clave durante la inferencia, como las operaciones AllToAll en arquitecturas MoE, ralentizando el proceso.
Para ello, DualPath diseña un mecanismo de gestión de tráfico centrado en la tarjeta de red de cálculo (CNIC). Todo el tráfico hacia y desde la GPU (incluyendo copias entre host y dispositivo) pasa obligatoriamente por la tarjeta de cálculo, y se implementa un control estricto de calidad de servicio (QoS) usando tecnologías de red subyacentes como canales virtuales en InfiniBand. La comunicación de inferencia se asigna a un canal de alta prioridad con el 99% del ancho de banda, mientras que la transferencia de KV-Cache se realiza en canales de baja prioridad, solo en momentos de inactividad de la red, logrando un aislamiento de tráfico perfecto.
El segundo desafío es el balance de carga dinámico.
Frente a solicitudes complejas y variables, el sistema debe decidir en tiempo real qué ruta de lectura usar para cada solicitud, considerando la longitud de las colas en las tarjetas de red y la carga de cálculo en la GPU.
DualPath introduce un programador de solicitudes adaptativo (como se muestra en la Figura 5). Este monitoriza las colas de lectura en disco de cada nodo y usa la cantidad de tokens como principal métrica de carga. Divide los nodos en tres categorías: sobrecargados, con colas cortas y con colas largas, priorizando la asignación de nuevas tareas a los nodos con colas cortas y sin sobrecarga.
Además, dentro de los nodos, el sistema realiza una programación basada en una estimación del tiempo de ejecución, agrupando solicitudes con tiempos similares en un mismo lote, para reducir al mínimo los “burbujas” de cálculo que generan esperas en la GPU.
Capacidad de rendimiento casi duplicada, escalabilidad a miles de modelos
El equipo de investigación evaluó exhaustivamente DualPath en un clúster de GPUs NVIDIA Hopper con red InfiniBand y almacenamiento distribuido 3FS. Los modelos probados incluyen DeepSeek-V3.2 660B, DS 27B y Qwen2.5-32B, usando datos reales de trayectorias de entornos de aprendizaje reforzado con agentes inteligentes.
Rendimiento en inferencia offline por lotes (como en la fase de Rollout en RL):
Con diferentes niveles de concurrencia de agentes y longitudes máximas de contexto, DualPath mostró ventajas abrumadoras frente a la línea base. En el caso del modelo DeepSeek 660B, redujo significativamente el tiempo de finalización de tareas, alcanzando hasta 1.87 veces más de throughput.
A medida que aumenta la longitud de tokens añadidos en cada ronda o la longitud de generación, DualPath mantiene un rendimiento estable, demostrando que elimina efectivamente los cuellos de botella en la red de almacenamiento.
Rendimiento en servicio en línea:
Con un acuerdo de nivel de servicio que exige una latencia de primer byte menor a 4 segundos, la capacidad del sistema para manejar solicitudes de picos aumentó considerablemente. DualPath soporta hasta 2.25 veces más solicitudes por segundo (APS) que la línea base, manteniendo una latencia de generación final muy baja. Los experimentos de ablación confirman que las rutas dobles y la programación adaptativa son los factores clave para la mejora del rendimiento.
Escalabilidad a gran escala:
El sistema no solo funciona excelentemente en pequeños clústeres, sino que también mantiene una escalabilidad casi lineal en entornos con inmensa capacidad computacional. En pruebas con un gran clúster de 1152 GPUs (48 nodos de prellenado y 96 de decodificación), DualPath sigue logrando un crecimiento de rendimiento casi lineal.
Al reconfigurar el flujo de datos en sus niveles más profundos, DualPath allana el camino para la infraestructura necesaria en la era de los grandes modelos Agentic, acercando la inferencia ultrarrápida a la realidad.
Fuente: AI Cambrian
Aviso de riesgo y exención de responsabilidad
El mercado tiene riesgos, invierta con precaución. Este artículo no constituye asesoramiento de inversión personal y no considera objetivos, situación financiera o necesidades particulares de los usuarios. Los usuarios deben evaluar si las opiniones, puntos de vista o conclusiones aquí presentadas se ajustan a su situación específica. La inversión es bajo su propio riesgo.