ديب سيك تتعاون مع تشينغ هيتشينغ لنشر ورقة بحثية قوية: التركيز على البنية التحتية الأساسية للوكيل، وكسر عنق الزجاجة في استنتاج الإدخال والإخراج للوكيل!

SnapshotLaborer · 2026-02-26T21:06:00+00:00

قبل إصدار DeepSeek V4، اقترح فريق البحث نظام الاستنتاج DualPath، بهدف حل مشكلة عنق الزجاجة في الإدخال والإخراج للتخزين في النماذج الكبيرة. من خلال آلية "تحميل ذاكرة التخزين المؤقت ذات المسارين"، تم تحسين معدل المعالجة في الاستنتاج غير المتصل والمتصل، ودعم عنقود يضم حتى 1152 بطاقة GPU، مما أزال بنجاح عنق الزجاجة في شبكة التخزين، وأسّس أساسًا لتطوير نموذج Agentic الكبير.

SnapshotLaborer

2026-02-26 21:06:00

إنشاء الملخص قيد التقدم

قبل إصدار DeepSeek V4، تم إطلاق ورقة بحثية قوية ومهمة

يتم الآن تطور النماذج الكبيرة بسرعة من روبوتات الحوار ذات الجولة الواحدة إلى وكلاء قادرين على التخطيط الذاتي، واستدعاء الأدوات، وحل المشكلات الواقعية. ومع ذلك، فإن هذا التحول يثير زلزالًا في بنية الحوسبة الأساسية.

عندما تتفاعل النماذج الكبيرة مع البيئة عبر سياق طويل يمتد لعشرات أو مئات من الحلقات، يتحول عنق الزجاجة في الحساب من قدرة GPU إلى عرض النطاق الترددي لتخزين الإدخال والإخراج. نظرًا لإضافة عدد قليل جدًا من الرموز في كل مرة، فإن معدل نجاح ذاكرة التخزين المؤقت للقيم المفتاحية (KV-Cache) يكون مرتفعًا جدًا (عادة أكثر من 95%)، ويقضي GPU وقتًا كبيرًا في انتظار قراءة كميات هائلة من بيانات KV-Cache التاريخية من التخزين الخارجي.

ولكسر هذا الجمود، اقترحت فريق DeepSeek بالتعاون مع فريق بحثي من جامعة بكين وجامعة تشانغتشونغ نظام استنتاج نماذج كبيرة جديد تمامًا — DualPath.

يستخدم هذا النظام آلية “تحميل KV-Cache ذات المسارين المزدوجين”، مستفيدًا بشكل ذكي من عرض النطاق الترددي غير المستخدم في الشبكة داخل العنقود، مما رفع قدرة الاستنتاج غير المتصل لنموذج الوكيل (Agentic) بنسبة تصل إلى 1.87 مرة، وزاد من خلال الأداء عبر الإنترنت بمعدل 1.96 مرة.

حتى الآن، أكملت هذه الدراسة التحقق على عنقود يضم حتى 1152 بطاقة GPU، ويدعم نماذج كبيرة من الطرازات الرائدة مثل DeepSeek-V3.2 660B.

لماذا تظهر مشكلة عنق زجاجة خطيرة في الإدخال والإخراج (I/O)؟

لفهم ابتكار DualPath، من الضروري أولاً فهم نقاط الألم في البنية الحالية.

في مسار النموذج النموذجي، يتلقى النموذج موجهًا يتضمن السياق السابق والكلمات المضافة حديثًا، ثم ينتج الخطوة التالية من الفعل.

هذا النمط من التفاعل متعدد الجولات، مع إضافة قصيرة، يؤدي إلى تضخم سريع لطول السياق، ويمكن أن يصل إلى مليون رمز أو أكثر. نظرًا لقيود الذاكرة (HBM) والذاكرة العشوائية (DRAM)، يجب تخزين كميات هائلة من KV-Cache في تخزين خارجي أرخص وأبطأ، مثل SSD.

تستخدم أنظمة استنتاج النماذج الكبيرة الحديثة عادةً بنية فصل بين عملية التهيئة (Prefill) والديكود (Decode). يتخصص عقدة التهيئة في معالجة الموجهات وتحميل KV-Cache التي تم تحديدها، بينما تتولى عقدة الديكود توليد الرموز واحدًا تلو الآخر.

المشكلة تكمن هنا.

كما هو موضح في الجانب الأيسر من الشكل 1، في النظام الحالي، يتم تحميل جميع KV-Cache مباشرة من التخزين الخارجي إلى عقدة التهيئة. هذا يسبب اختلالًا شديدًا: عرض النطاق الترددي لبطاقة الشبكة (SNIC) لعقدة التهيئة يُشبع تمامًا، ويصبح عنق الزجاجة المطلق للنظام؛ في حين أن عقدة الديكود تكون في حالة من الخمول الكبير.

علاوة على ذلك، فإن تطور الأجهزة يزيد من تفاقم هذا التناقض. من مسار تطور أجهزة NVIDIA في الجانب الأيسر من الشكل 3، يتضح أن سرعة زيادة قدرة الحوسبة (FLOPS) للـGPU تتجاوز بكثير نمو عرض النطاق الترددي للشبكة وسعة الذاكرة، مما يؤدي إلى اختلال كبير بين الحساب وI/O.

DualPath: مساران يكسران سقف النطاق الترددي

بما أن عقدة الديكود لديها عرض نطاق ترددي غير مستخدم، فلماذا لا نستفيد منه؟ هذا هو جوهر فكرة DualPath.

قام فريق البحث بإعادة تصميم بنية تحميل KV-Cache، وفتح مسار جديد كليًا “التخزين -> الديكود -> التهيئة”، إلى جانب المسار التقليدي “التخزين -> التهيئة”.

مسار القراءة للتهيئة: يقرأ KV-Cache من التخزين الدائم إلى ذاكرة مؤقتة على عقدة التهيئة، ثم ينقل إلى ذاكرة GPU للمعالجة، وأخيرًا يُرسل كامل KV-Cache إلى عقدة الديكود.
مسار القراءة للديكود: يقرأ KV-Cache من التخزين الدائم إلى ذاكرة مؤقتة على عقدة الديكود. خلال مرحلة التهيئة، يتم إرسال هذه البيانات عبر شبكة حساب عالية السرعة بين العقد (باستخدام تقنية RDMA) بطريقة تدفق هرمي، للمشاركة في حسابات عقدة التهيئة.

من خلال تخصيص تدفق البيانات بشكل ديناميكي بين هذين المسارين، يحول DualPath الضغط على الإدخال والإخراج في عقدة واحدة إلى توزيع الحمل عبر موارد الشبكة الكلية، مما يدمج عرض النطاق الترددي للتخزين في جميع العقد.

تجاوز التحديات التطبيقية: عزل التدفقات والتوزيع الديناميكي

الفكرة واضحة جدًا، لكن تطبيقها في أنظمة استنتاج النماذج الكبيرة التي تتطلب تأخيرًا أقل من ميلي ثانية يتطلب حل تحديات هندسية صعبة.

التحدي الأول هو تداخل حركة المرور على الشبكة.

إضافة نقل KV-Cache يزيد من احتمالية تعارضه مع عمليات الاتصال الجماعي الحاسوبية المهمة أثناء استنتاج النموذج (مثل عمليات AllToAll في بنية MoE)، مما يبطئ الأداء الكلي.

لذلك، صمم DualPath آلية إدارة حركة المرور تعتمد على بطاقة الشبكة الحاسوبية (CNIC). يمر كل حركة المرور الصادرة والواردة من وإلى GPU (بما في ذلك عمليات النسخ بين المضيف والجهاز) عبر بطاقة الحوسبة، ويُطبق عليها إدارة جودة الخدمة (QoS) الصارمة باستخدام تقنيات الشبكة الأساسية مثل قناة InfiniBand الافتراضية. يُخصص اتصال عالي الأولوية (99% من النطاق الترددي) للاتصالات الخاصة باستنتاج النموذج، بينما يُخصص اتصال منخفض الأولوية لنقل KV-Cache، ويُستخدم فقط عندما تكون الشبكة الحسابية فارغة، مما يحقق عزلًا مثاليًا لحركة المرور.

التحدي الثاني هو التوازن الديناميكي في الحمل.

نظرًا لتغير الطلبات بشكل كبير، يجب على النظام أن يقرر في الوقت الحقيقي أي مسار قراءة لكل طلب، مع مراعاة طول قائمة الانتظار على بطاقة الشبكة وحمل حساب GPU.

يقدم DualPath مُجدول طلبات ذاتي التكيف (كما هو موضح في الشكل 5). يراقب هذا المجدول طول قوائم القراءة على كل عقدة، ويستخدم عدد الرموز (Tokens) كمؤشر رئيسي للحمل. يقسم النظام العقد إلى ثلاث فئات: فوق الحمولة، وقائمة قراءة منخفضة، وقائمة قراءة عالية، ويعطي الأولوية لتوزيع المهام الجديدة على العقد ذات قوائم القراءة الأقصر والأقل حملاً.

داخل العقد، يستخدم النظام أيضًا آلية تقدير زمن التنفيذ لتجميع الطلبات ذات التوقيت المماثل في دفعة واحدة، مما يقلل من فترات الانتظار غير الضرورية لوحدة المعالجة الرسومية (GPU).

معدل الأداء يقارب الضعف، مع دعم التوسع إلى آلاف النماذج

قيم فريق البحث نظام DualPath على عنقود يضم شبكة InfiniBand وتخزين موزع 3FS على مجموعة من بطاقات GPU من نوع NVIDIA Hopper. شملت الاختبارات نماذج مثل DeepSeek-V3.2 660B، DS 27B، وQwen2.5-32B، باستخدام بيانات مسارات بيئة التعلم المعزز الحقيقية.

الأداء في التنبؤات غير المتصلة (مثل مرحلة Rollout في التعلم المعزز):

تحت ظروف تزامن متعددة للسلوكيات وطول سياق أقصى، أظهر DualPath تفوقًا واضحًا على النظام الأساسي. عند التعامل مع نموذج DeepSeek 660B، قلل DualPath زمن إنجاز المهمة بشكل كبير، وارتفعت القدرة الإنتاجية (Throughput) إلى 1.87 مرة.

مع زيادة طول الرموز المضافة في كل جولة أو تغير طول التوليد، استمر الأداء في الثبات، مثبتًا نجاحه في القضاء على عنق الزجاجة في الشبكة التخزينية.

الأداء في الخدمة عبر الإنترنت:

بتطبيق بروتوكول خدمة بحد أدنى من التأخير (أقل من 4 ثوانٍ)، زادت قدرة النظام على التعامل مع الطلبات المفاجئة بشكل كبير. استطاع DualPath دعم معدل وصول الطلبات (APS) بنسبة تصل إلى 2.25 مرة أعلى من النظام الأساسي، مع الحفاظ على تأخير توليد منخفض جدًا من البداية للنهاية. أظهرت تجارب الإزالة أن آلية التحميل ذات المسارين والتوزيع التكيفي هما العاملان الأهم في تحسين الأداء.

قابلية التوسع على نطاق واسع:

لا يقتصر أداء النظام على مجموعات صغيرة، بل يمتلك قدرة عالية على التوسع عند زيادة القدرة الحاسوبية بشكل كبير. في اختبار على عنقود يضم 1152 بطاقة GPU (48 عقدة تهيئة و96 عقدة ديكود)، استمر الأداء في التوسع بشكل شبه خطي.

من خلال إعادة تشكيل تدفقات البيانات الأساسية، يمهد DualPath الطريق للبنية التحتية اللازمة لعصر النماذج الوكيلية (Agentic) القادمة، مع سرعة استنتاج فائقة.

مصدر المقال: AI寒武纪

تحذيرات المخاطر وشروط الإعفاء

السوق محفوف بالمخاطر، ويجب الحذر عند الاستثمار. لا تشكل هذه المقالة نصيحة استثمار شخصية، ولم تأخذ في الاعتبار الأهداف أو الحالة المالية أو الاحتياجات الخاصة للمستخدمين. يجب على المستخدمين تقييم مدى توافق الآراء والوجهات النظر الواردة مع ظروفهم الخاصة. يتحمل المستخدمون مسؤولية استثماراتهم.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 2