DeepSeek совместно с Цинхэ и Пекинским университетом представляют важную и мощную статью: сосредоточение усилий на фундаментальной инфраструктуре интеллектуальных агентов, преодоление узкого места I/O в рассуждениях Agent!

robot
Генерация тезисов в процессе

Перед выпуском DeepSeek V4 опубликована важная и глубокая статья

Большие модели быстро эволюционируют от однопроходных чат-ботов к агентам, способным самостоятельно планировать, вызывать инструменты и решать реальные задачи. Однако эта трансформация вызывает сильные изменения в архитектуре вычислительных ресурсов.

Когда большие модели взаимодействуют с окружением в течение десятков или сотен раундов в долгосрочном контексте, узким местом становится не вычислительная мощность GPU, а пропускная способность хранения I/O. Поскольку за один раз добавляется очень мало токенов, вероятность попадания в KV-Cache очень высокая (обычно более 95%), и значительное время GPU тратится на ожидание чтения огромных объемов данных KV-Cache из внешней памяти.

Чтобы преодолеть этот тупик, DeepSeek совместно с командами из Пекинского университета и Цинхуа предложили новую систему для вывода больших моделей — DualPath.

Эта система вводит механизм «двойного пути загрузки KV-Cache», который умело использует свободную пропускную способность сети в кластере, повышая пропускную способность офлайн-вычислений агентных больших моделей до 1.87 раза, а онлайн-сервиса — в среднем в 1.96 раза.

На данный момент исследование успешно прошло масштабную проверку на кластерах с до 1152 GPU и поддерживает такие крупные модели, как DeepSeek-V3.2 660B.

Почему возникает серьезное узкое место в I/O?

Чтобы понять инновацию DualPath, нужно сначала рассмотреть существующие архитектурные проблемы.

В типичной траектории работы агента модель получает подсказку, содержащую предыдущий контекст и добавленные токены, и затем генерирует следующий шаг.

Этот режим многократных коротких дополнений быстро увеличивает длину контекста, достигая миллиона и более токенов. Из-за ограничений видеопамяти (HBM) и оперативной памяти (DRAM) огромные объемы KV-Cache вынуждены храниться на более дешевом, но медленном SSD.

Современные системы вывода больших моделей обычно используют архитектуру разделения Prefill-Decode (предзаполнение — декодирование). Предзаполняющий узел занимается обработкой подсказки и загрузкой KV-Cache, а декодирующий — по одному генерирует токены.

Проблема именно здесь.

Как показано слева на рисунке 1, в существующих системах все KV-Cache загружается напрямую из внешней памяти в предзаполняющий узел. Это приводит к сильному дисбалансу: пропускная способность сетевой карты хранения (SNIC) предзаполняющего узла полностью исчерпана, становясь абсолютным узким местом системы; в то время как узлы декодирования остаются в значительной степени простаивающими.

Кроме того, развитие аппаратных средств усугубляет эту проблему. Как видно слева на рисунке 3, рост вычислительной мощности GPU (FLOPS) значительно опережает рост пропускной способности сети и объема видеопамяти, что приводит к серьезному дисбалансу между вычислениями и I/O.

DualPath: двойной путь для преодоления потолка пропускной способности

Если узлы декодирования простаивают, почему бы не использовать их? Именно это и лежит в основе идеи DualPath.

Команда исследователей перестроила архитектуру загрузки KV-Cache, создав помимо традиционного пути «хранение -> предзаполнение» новый «хранение -> декодирование -> предзаполнение» двойной путь.

  1. Путь чтения для предзаполнения: KV-Cache считывается из постоянного хранилища в память предзаполняющего узла, затем передается на GPU для вычислений, и в конце весь KV-Cache передается декодирующему узлу.

  2. Путь чтения для декодирования: KV-Cache сначала считывается из постоянного хранилища в память декодирующего узла. На этапе предзаполнения эти данные передаются между узлами по высокоскоростной сети (с использованием RDMA) в виде потоковых слоистых передач, чтобы участвовать в вычислениях.

Динамическое распределение трафика по этим двум путям позволяет превратить нагрузку, изначально сосредоточенную на одном узле, в распределенную по всему кластеру, объединяя пропускную способность всех узлов.

Преодоление технических вызовов: изоляция трафика и динамическое управление

Идея кажется очевидной, но для реализации в системах вывода больших моделей с задержками в миллисекунды и ниже это сопряжено с серьезными инженерными задачами.

Первая проблема — помехи в сетевом трафике.

Добавление передачи KV-Cache может конфликтовать с критическими коммуникациями во время вывода модели (например, операции AllToAll в архитектуре MoE), что замедляет работу.

Для этого DualPath разработал механизм управления трафиком, основанный на вычислительной сетевой карте (CNIC). Все входящие и исходящие потоки GPU (включая копирование между хостом и устройством) проходят через вычислительную сетевую карту, а низкоуровневая сеть (например, InfiniBand с виртуальными каналами) обеспечивает строгий контроль качества обслуживания (QoS). Передача данных для модели приоритизирована по высокоприоритетным каналам, а KV-Cache — по низкоприоритетным, что позволяет избегать конфликтов и обеспечивает изоляцию трафика.

Вторая проблема — динамическое балансирование нагрузки.

При обработке сложных запросов система должна в реальном времени решать, какой путь чтения использовать, учитывая длину очереди на сетевых интерфейсах и нагрузку на GPU.

Для этого DualPath внедрил адаптивный диспетчер запросов (см. рисунок 5). Он отслеживает длину очередей чтения с диска у каждого узла и использует количество токенов как основной показатель нагрузки. Узлы делятся на три категории: перегруженные, с короткими и длинными очередями. Новые задачи сначала направляются в узлы с короткими очередями и без перегрузки.

Также внутри узлов применяется предсказание времени выполнения, чтобы сгруппировать запросы с похожим временем обработки, минимизируя задержки, связанные с ожиданием синхронизации на GPU.

Практическая эффективность: почти вдвое выше пропускная способность, масштабируемость до тысяч моделей

Команда провела всестороннюю оценку DualPath на кластере NVIDIA Hopper с InfiniBand и распределенной системой хранения 3FS. В тестах использовались модели DeepSeek-V3.2 660B, DS 27B и Qwen2.5-32B, а также реальные траектории данных из среды обучения с подкреплением.

Производительность офлайн-вычислений (например, в фазе Rollout при обучении с подкреплением):

При различных уровнях параллелизма и длине контекста DualPath значительно превосходит базовые системы. При обработке модели DeepSeek 660B время выполнения сокращается значительно, а пропускная способность увеличивается до 1.87 раза.

При увеличении длины добавляемых токенов или изменении длины генерации DualPath сохраняет стабильную производительность, что подтверждает устранение узких мест в памяти.

Онлайн-обслуживание:

При строгих требованиях к задержкам (например, задержка первого байта менее 4 секунд) система значительно повышает устойчивость к внезапным нагрузкам. Максимальный рост пропускной способности достигает 2.25 раз по сравнению с базовой системой, при этом задержки генерации остаются очень низкими. АБ-тесты показывают, что ключевыми факторами повышения являются двойной путь загрузки и адаптивное управление запросами.

Масштабируемость:

Данная система показывает отличные результаты не только на небольших кластерах, но и при масштабировании до огромных мощностей. В тестах на кластере из 1152 GPU (48 предзаполняющих и 96 декодирующих узлов) производительность практически линейно растет.

Путем переосмысления потоков данных на низком уровне DualPath создает основу для быстрого вывода в эпоху агентных больших моделей, прокладывая путь к инфраструктуре будущего.

Источник статьи: AI寒武纪

Риск и отказ от ответственности

        Рынок подвержен рискам, инвестиции требуют осторожности. Настоящий материал не является индивидуальной инвестиционной рекомендацией и не учитывает особенности конкретных пользователей, их целей, финансового положения или потребностей. Пользователи должны самостоятельно оценить, соответствуют ли приведенные мнения, взгляды или выводы их ситуации. За инвестиции по этим рекомендациям несете ответственность самостоятельно.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить