أقصى سرعة تصل إلى 3 أضعاف وبدون خسارة، نموذج فك التشفير للمخاطر من سلسلة Gemma4 مفتوحة المصدر من جوجل، جميعها تعتمد على تقنية MTP

وفقًا لمراقبة Beating، أصدرت جوجل وفتحت مصدر نموذج مسودة التنبؤ متعدد الرموز (MTP) من سلسلة Gemma 4.
هو نموذج مساعد خفيف الوزن يعتمد على بنية فك التشفير التخميني (speculative decoding)، يمكنه، مع الاحتفاظ بحقوق التحقق النهائية للنموذج الرئيسي، تحقيق تسريع في الاستنتاج يصل إلى 3 أضعاف، دون أي خسارة في جودة الإخراج أو القدرة على الاستنتاج المنطقي.

كل نموذج لغة كبير قياسي يمكنه توليد رمز واحد فقط في كل مرة، مما يجعله عرضة لحدود عرض النطاق الترددي للذاكرة العشوائية (VRAM) ويؤدي إلى توقف الحسابات.
تسمح خطة MTP لنموذج المسودة الخفيف باستخدام القدرة الحسابية غير المستغلة، والتنبؤ مسبقًا بمجموعة من الرموز المستقبلية دفعة واحدة، ثم يتم التحقق منها بشكل متزامن بواسطة نموذج الهدف الثقيل مثل 31B.
إذا وافق نموذج الهدف على المسودة، فإنه يقبل التسلسل بالكامل دفعة واحدة.
لزيادة الكفاءة، يشارك نموذج المسودة مباشرة حالة التنشيط وذاكرة التخزين المؤقت لـ KV الخاصة بنموذج الهدف (لتخزين السياق التاريخي وتجنب الحساب المكرر).
بالنسبة لنماذج E2B و E4B على الجانب النهائي، أدخل الفريق تقنية التجميع في طبقة الإدخال.

حاليًا، تم إصدار نموذج MTP بموجب نفس بروتوكول Apache 2.0 الذي يستخدمه Gemma 4 بشكل كامل ومفتوح المصدر، ويدعم بشكل أصلي أطر الاستنتاج الرائدة مثل vLLM و SGLang و Ollama.
هذا التحسين في التسريع يقلل بشكل كبير من عتبة التطبيق، مما يمكّن المطورين من تشغيل نماذج MoE بحجم 26B والنماذج الكثيفة بحجم 31B بسلاسة على بطاقات رسومات استهلاكية عادية، كما يدعم التفاعل الذكي في الوقت الحقيقي على الأجهزة المحمولة بكفاءة طاقة أقل.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت