DeepSeek спільно з Цінхе та Пекінським університетом опублікували важливу наукову статтю: зосереджені на фундаментальній інфраструктурі інтелектуальних агентів, подоланні вузьких місць у I/O для агентського мислення!
Перед виходом DeepSeek V4 опубліковано важливу наукову статтю
Великі моделі швидко еволюціонують від одноразових чат-ботів до агентів, здатних самостійно планувати, викликати інструменти та вирішувати реальні задачі. Однак ця трансформація спричинила значні зміни у базовій обчислювальній архітектурі.
Коли великі моделі взаємодіють з навколишнім середовищем у довгих контекстах — десятки або сотні раундів — обмеження переходять від обчислювальної потужності GPU до пропускної здатності зберігання I/O. Оскільки кожного разу додається лише кілька токенів, частота попадання KV-Cache дуже висока (зазвичай понад 95%), і GPU витрачає багато часу на очікування читання величезних обсягів історичних даних KV-Cache з зовнішнього сховища.
Щоб подолати цю проблему, DeepSeek у співпраці з командами з Пекінського університету та Цінхуа запропонували нову систему для обчислення великих моделей — DualPath.
Ця система вводить механізм “подвійного завантаження KV-Cache”, який ефективно використовує вільну мережеву пропускну здатність у кластері, підвищуючи пропускну здатність офлайн-обчислень агентних моделей до 1.87 разів, а онлайн-сервіс — у середньому до 1.96 разів.
На даний момент дослідження підтверджено масштабними тестами на кластері з понад 1152 GPU, що підтримує топові моделі, такі як DeepSeek-V3.2 660B.
Чому виникає серйозне I/O-обмеження?
Щоб зрозуміти інновацію DualPath, потрібно розглянути слабкі місця існуючої архітектури.
У типових сценаріях роботи агентів модель отримує підказку, що містить попередній контекст і додані токени, і генерує наступну дію.
Такий режим багаторазових коротких раундів швидко збільшує довжину контексту до мільйонів символів. Через обмежену пам’ять (HBM) і обсяг оперативної пам’яті (DRAM), величезний KV-Cache зберігається на дешевих, але повільних SSD.
Сучасні системи обчислення великих моделей зазвичай використовують архітектуру “Pre-fill-Decode” (попереднє заповнення — декодування). Вузол попереднього заповнення відповідає за завантаження підказки та KV-Cache, а вузол декодування — за послідовне генерування токенів.
Саме тут і виникає проблема.
Як показано зліва на малюнку 1, у сучасних системах всі KV-Cache безпосередньо зчитуються з зовнішнього сховища до вузла попереднього заповнення. Це спричиняє крайній дисбаланс: пропускна здатність мережевої карти (SNIC) вузла попереднього заповнення повністю навантажена, стає вузьким місцем у системі; у той час як вузли декодування залишаються майже вільними.
Крім того, тенденції розвитку апаратного забезпечення посилюють цю проблему. Згідно з даними зліва на малюнку 3, швидкість зростання обчислювальної потужності GPU (FLOPS) значно випереджає зростання пропускної здатності мережі та обсягу пам’яті, що призводить до серйозного дисбалансу між обчисленнями та I/O.
DualPath: подвійний шлях для подолання обмежень пропускної здатності
Якщо вузли декодування мають вільну пропускну здатність мережі, чому б не використати її? Саме цю ідею реалізує DualPath.
Команда дослідників перебудувала архітектуру завантаження KV-Cache, створивши новий “подвійний шлях”: окрім традиційного “зберігання -> попереднє заповнення”, з’явився новий канал “зберігання -> декодування -> попереднє заповнення”.
Шлях читання для попереднього заповнення: KV-Cache зчитується з постійного сховища у пам’ять вузла попереднього заповнення, потім передається на GPU для обчислень, і нарешті передається декодуючому вузлу.
Шлях читання для декодування: KV-Cache спочатку зчитується з постійного сховища у пам’ять декодуючого вузла. На етапі попереднього заповнення ця частина даних передається через високошвидкісну мережу між вузлами (з використанням RDMA) у вигляді потокових пакетів для участі у обчисленнях.
Динамічно регулюючи обсяг даних, що передаються цими двома шляхами, DualPath перетворює навантаження з одного вузла у глобальне балансування ресурсів, об’єднуючи пропускну здатність усіх сховищ.
Преодоління технічних викликів: ізоляція трафіку та динамічне балансування
Ідея проста, але для реалізації у системі з затримкою в мілісекунди потрібно подолати складні інженерні задачі.
Перша — управління мережевим трафіком.
Додатковий канал передачі KV-Cache може конфліктувати з критичними операціями, наприклад, з колективними комунікаціями (AllToAll у MoE), що сповільнює загальну швидкість обробки.
Для цього DualPath використовує механізм управління трафіком, орієнтований на обчислювальну мережеву карту (CNIC). Весь трафік між GPU та хостом (у тому числі копіювання даних) проходить через CNIC, а низькорівнева мережа (наприклад, InfiniBand з віртуальними каналами) забезпечує жорсткий контроль QoS. Трафік для моделювання пріоритезується: високий пріоритет — для основних обчислень, низький — для KV-Cache, що передається у вільний час, забезпечуючи ізоляцію потоків.
Друга — динамічне балансування навантаження.
Щоб ефективно реагувати на змінні запити, система має в реальному часі визначати, який шлях читання використовувати для кожного запиту, враховуючи довжину черги мережевих карт і навантаження GPU.
Для цього введено адаптивний диспетчер запитів (див. малюнок 5). Він моніторить довжину черги зчитування з диска у кожному вузлі та кількість токенів у запиті. Вузли класифікуються за рівнем навантаження: перевантажені, з короткою чергою або з довгою чергою. Нові запити спрямовуються переважно до вузлів з короткою чергою та без перевантаження.
Крім того, внутрішньо вузол використовує механізм прогнозування часу виконання, щоб групувати схожі за часом запити у пакети, зменшуючи час очікування GPU і зменшуючи “порожнечу” у обчисленнях.
Потужність майже подвоїлася, масштабування — до тисячі моделей
Команда провела масштабне тестування DualPath на кластері з NVIDIA Hopper GPU, що має InfiniBand і розподілене сховище 3FS. Тестували моделі DeepSeek-V3.2 660B, DS 27B і Qwen2.5-32B, використовуючи реальні дані з траєкторій агентного навчання.
Показники офлайн-обчислень (наприклад, у фазі Rollout у навчанні з підкріпленням):
При різних рівнях паралелізму агентів і довжинах контексту, DualPath значно перевищує базову систему. Для DeepSeek 660B час виконання зменшився суттєво, а пропускна здатність зросла до 1.87 разів.
Зі збільшенням довжини доданих токенів або генераційних довжин, система зберігає стабільну продуктивність, підтверджуючи здатність подолати вузькі місця у зберіганні.
Онлайн-сервіс:
При строгих вимогах до затримки (менше 4 секунд) система значно покращила здатність обробляти несподівані запити. Максимальне збільшення пропускної здатності — у 2.25 разів порівняно з базовою системою, при цьому затримки залишаються дуже низькими. Експерименти без DualPath показали, що саме механізм подвійного завантаження і адаптивне управління запитами є ключовими для підвищення продуктивності.
Масштабованість:
Ця система демонструє високий рівень масштабування навіть на великих кластерах. На тестовому середовищі з 1152 GPU (48 вузлів попереднього заповнення і 96 вузлів декодування) вона забезпечує майже лінійне зростання продуктивності.
Завдяки переосмисленню потоків даних, DualPath створює фундамент для швидкого обчислення агентних моделей у майбутньому, прокладаючи шлях до нової ери високопродуктивних інфраструктур.
Це джерело: AI寒武纪
Ризики та застереження
Ринок ризикований, інвестиції — під власну відповідальність. Ця стаття не є інвестиційною рекомендацією і не враховує індивідуальні цілі, фінансовий стан або потреби користувачів. Користувачі мають самостійно оцінити відповідність будь-яких думок, поглядів або висновків своїй ситуації. Інвестиції — на їхній власний ризик.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
DeepSeek спільно з Цінхе та Пекінським університетом опублікували важливу наукову статтю: зосереджені на фундаментальній інфраструктурі інтелектуальних агентів, подоланні вузьких місць у I/O для агентського мислення!
Перед виходом DeepSeek V4 опубліковано важливу наукову статтю
Великі моделі швидко еволюціонують від одноразових чат-ботів до агентів, здатних самостійно планувати, викликати інструменти та вирішувати реальні задачі. Однак ця трансформація спричинила значні зміни у базовій обчислювальній архітектурі.
Коли великі моделі взаємодіють з навколишнім середовищем у довгих контекстах — десятки або сотні раундів — обмеження переходять від обчислювальної потужності GPU до пропускної здатності зберігання I/O. Оскільки кожного разу додається лише кілька токенів, частота попадання KV-Cache дуже висока (зазвичай понад 95%), і GPU витрачає багато часу на очікування читання величезних обсягів історичних даних KV-Cache з зовнішнього сховища.
Щоб подолати цю проблему, DeepSeek у співпраці з командами з Пекінського університету та Цінхуа запропонували нову систему для обчислення великих моделей — DualPath.
Ця система вводить механізм “подвійного завантаження KV-Cache”, який ефективно використовує вільну мережеву пропускну здатність у кластері, підвищуючи пропускну здатність офлайн-обчислень агентних моделей до 1.87 разів, а онлайн-сервіс — у середньому до 1.96 разів.
На даний момент дослідження підтверджено масштабними тестами на кластері з понад 1152 GPU, що підтримує топові моделі, такі як DeepSeek-V3.2 660B.
Чому виникає серйозне I/O-обмеження?
Щоб зрозуміти інновацію DualPath, потрібно розглянути слабкі місця існуючої архітектури.
У типових сценаріях роботи агентів модель отримує підказку, що містить попередній контекст і додані токени, і генерує наступну дію.
Такий режим багаторазових коротких раундів швидко збільшує довжину контексту до мільйонів символів. Через обмежену пам’ять (HBM) і обсяг оперативної пам’яті (DRAM), величезний KV-Cache зберігається на дешевих, але повільних SSD.
Сучасні системи обчислення великих моделей зазвичай використовують архітектуру “Pre-fill-Decode” (попереднє заповнення — декодування). Вузол попереднього заповнення відповідає за завантаження підказки та KV-Cache, а вузол декодування — за послідовне генерування токенів.
Саме тут і виникає проблема.
Як показано зліва на малюнку 1, у сучасних системах всі KV-Cache безпосередньо зчитуються з зовнішнього сховища до вузла попереднього заповнення. Це спричиняє крайній дисбаланс: пропускна здатність мережевої карти (SNIC) вузла попереднього заповнення повністю навантажена, стає вузьким місцем у системі; у той час як вузли декодування залишаються майже вільними.
Крім того, тенденції розвитку апаратного забезпечення посилюють цю проблему. Згідно з даними зліва на малюнку 3, швидкість зростання обчислювальної потужності GPU (FLOPS) значно випереджає зростання пропускної здатності мережі та обсягу пам’яті, що призводить до серйозного дисбалансу між обчисленнями та I/O.
DualPath: подвійний шлях для подолання обмежень пропускної здатності
Якщо вузли декодування мають вільну пропускну здатність мережі, чому б не використати її? Саме цю ідею реалізує DualPath.
Команда дослідників перебудувала архітектуру завантаження KV-Cache, створивши новий “подвійний шлях”: окрім традиційного “зберігання -> попереднє заповнення”, з’явився новий канал “зберігання -> декодування -> попереднє заповнення”.
Шлях читання для попереднього заповнення: KV-Cache зчитується з постійного сховища у пам’ять вузла попереднього заповнення, потім передається на GPU для обчислень, і нарешті передається декодуючому вузлу.
Шлях читання для декодування: KV-Cache спочатку зчитується з постійного сховища у пам’ять декодуючого вузла. На етапі попереднього заповнення ця частина даних передається через високошвидкісну мережу між вузлами (з використанням RDMA) у вигляді потокових пакетів для участі у обчисленнях.
Динамічно регулюючи обсяг даних, що передаються цими двома шляхами, DualPath перетворює навантаження з одного вузла у глобальне балансування ресурсів, об’єднуючи пропускну здатність усіх сховищ.
Преодоління технічних викликів: ізоляція трафіку та динамічне балансування
Ідея проста, але для реалізації у системі з затримкою в мілісекунди потрібно подолати складні інженерні задачі.
Перша — управління мережевим трафіком.
Додатковий канал передачі KV-Cache може конфліктувати з критичними операціями, наприклад, з колективними комунікаціями (AllToAll у MoE), що сповільнює загальну швидкість обробки.
Для цього DualPath використовує механізм управління трафіком, орієнтований на обчислювальну мережеву карту (CNIC). Весь трафік між GPU та хостом (у тому числі копіювання даних) проходить через CNIC, а низькорівнева мережа (наприклад, InfiniBand з віртуальними каналами) забезпечує жорсткий контроль QoS. Трафік для моделювання пріоритезується: високий пріоритет — для основних обчислень, низький — для KV-Cache, що передається у вільний час, забезпечуючи ізоляцію потоків.
Друга — динамічне балансування навантаження.
Щоб ефективно реагувати на змінні запити, система має в реальному часі визначати, який шлях читання використовувати для кожного запиту, враховуючи довжину черги мережевих карт і навантаження GPU.
Для цього введено адаптивний диспетчер запитів (див. малюнок 5). Він моніторить довжину черги зчитування з диска у кожному вузлі та кількість токенів у запиті. Вузли класифікуються за рівнем навантаження: перевантажені, з короткою чергою або з довгою чергою. Нові запити спрямовуються переважно до вузлів з короткою чергою та без перевантаження.
Крім того, внутрішньо вузол використовує механізм прогнозування часу виконання, щоб групувати схожі за часом запити у пакети, зменшуючи час очікування GPU і зменшуючи “порожнечу” у обчисленнях.
Потужність майже подвоїлася, масштабування — до тисячі моделей
Команда провела масштабне тестування DualPath на кластері з NVIDIA Hopper GPU, що має InfiniBand і розподілене сховище 3FS. Тестували моделі DeepSeek-V3.2 660B, DS 27B і Qwen2.5-32B, використовуючи реальні дані з траєкторій агентного навчання.
Показники офлайн-обчислень (наприклад, у фазі Rollout у навчанні з підкріпленням):
При різних рівнях паралелізму агентів і довжинах контексту, DualPath значно перевищує базову систему. Для DeepSeek 660B час виконання зменшився суттєво, а пропускна здатність зросла до 1.87 разів.
Зі збільшенням довжини доданих токенів або генераційних довжин, система зберігає стабільну продуктивність, підтверджуючи здатність подолати вузькі місця у зберіганні.
Онлайн-сервіс:
При строгих вимогах до затримки (менше 4 секунд) система значно покращила здатність обробляти несподівані запити. Максимальне збільшення пропускної здатності — у 2.25 разів порівняно з базовою системою, при цьому затримки залишаються дуже низькими. Експерименти без DualPath показали, що саме механізм подвійного завантаження і адаптивне управління запитами є ключовими для підвищення продуктивності.
Масштабованість:
Ця система демонструє високий рівень масштабування навіть на великих кластерах. На тестовому середовищі з 1152 GPU (48 вузлів попереднього заповнення і 96 вузлів декодування) вона забезпечує майже лінійне зростання продуктивності.
Завдяки переосмисленню потоків даних, DualPath створює фундамент для швидкого обчислення агентних моделей у майбутньому, прокладаючи шлях до нової ери високопродуктивних інфраструктур.
Це джерело: AI寒武纪
Ризики та застереження