مع التطور السريع لنماذج الذكاء الاصطناعي، أصبح كيفية إجراء استنتاج فعال (Inference) لهذه النماذج الكبيرة قضية رئيسية لا يمكن للصناعة تجاهلها. مشروع vLLM مفتوح المصدر من جامعة كاليفورنيا في بيركلي لا يواجه هذا التحدي التقني فحسب، بل يبني تدريجيًا مجتمعه وبيئته الخاصة، بل ويؤدي إلى ظهور شركة ناشئة تركز على بنية التحتية للاستنتاج، وهي Inferact. ستأخذك هذه المقالة في عمق أصل vLLM، والاختراقات التقنية، وتطور المجتمع المفتوح، وكيفية سعي Inferact لبناء “محرك استنتاج عام للذكاء الاصطناعي”.\n\nمن التجارب الأكاديمية إلى مشروع نجم على GitHub: ولادة vLLM\n\nنشأ vLLM في البداية من مشروع بحثي لمرحلة الدكتوراه في جامعة كاليفورنيا في بيركلي، بهدف حل مشكلة انخفاض كفاءة استنتاج النماذج اللغوية الكبيرة (LLM). في ذلك الوقت، قامت Meta بفتح مصدر نموذج OPT، وكان أحد المساهمين المبكرين في vLLM، Woosuk Kwon، يحاول تحسين خدمة العرض التوضيحي لهذا النموذج، واكتشف أن وراء ذلك مشكلة نظام استنتاج لم تُحل بعد. قال Kwon: “كنا نظن أنه يمكننا إنجازه خلال بضعة أسابيع، لكن الأمر فتح طريقًا جديدًا تمامًا للبحث والتطوير”.\n\nالتحدي من الأسفل إلى الأعلى: لماذا يختلف استنتاج LLM عن التعلم الآلي التقليدي؟\n\nيستهدف vLLM نماذج اللغة التلقائية (auto-regressive)، حيث تكون عملية الاستنتاج ديناميكية، غير متزامنة، ولا يمكن معالجتها دفعة واحدة، وتختلف تمامًا عن نماذج الصور أو الصوت التقليدية. يمكن أن تتراوح طول المدخلات من جملة واحدة إلى مئات الصفحات من الوثائق، ويجب تخصيص ذاكرة GPU بدقة، كما أن خطوات الحساب (جدولة مستوى الرموز) وإدارة الذاكرة (معالجة ذاكرة التخزين المؤقت KV) تصبح معقدة بشكل خاص.\n\nواحدة من الاختراقات التقنية المهمة في vLLM هي “Page Attention”، والتي تساعد النظام على إدارة الذاكرة بشكل أكثر فاعلية، لمواجهة الطلبات المتنوعة والإخراجات الطويلة للسلاسل.\n\nليس مجرد برمجة: من الحرم الجامعي إلى المجتمع المفتوح\n\nفي عام 2023، نظم فريق vLLM أول لقاء مفتوح للمجتمع في وادي السيليكون، وكان يتوقع أن يحضر عشرات الأشخاص فقط، لكن عدد المسجلين تجاوز التوقعات بشكل كبير وامتلأ المكان، مما أصبح نقطة تحول في تطور المجتمع.\n\nمنذ ذلك الحين، نما مجتمع vLLM بسرعة، حيث يوجد الآن أكثر من 50 مساهمًا دائمًا، وأكثر من 2000 مساهم على GitHub، وهو أحد أسرع المشاريع المفتوحة المصدر نموًا اليوم، ويحظى بدعم من Meta وRed Hat وNVIDIA وAMD وAWS وGoogle وغيرها.\n\nمنافسة متعددة القوى: بناء “نظام تشغيل للذكاء الاصطناعي”\n\nواحدة من مفاتيح نجاح vLLM هو أنه يوفر منصة مشتركة لمطوري النماذج، وشركات الشرائح، ومطوري التطبيقات، بحيث لا يحتاجون إلى التوافق مع بعضهم البعض، بل يمكنهم التوافق مع vLLM فقط لتحقيق أقصى توافق بين النماذج والأجهزة.\n\nوهذا يعني أن vLLM يسعى لبناء نوع من “نظام تشغيل للذكاء الاصطناعي”: بحيث يمكن تشغيل جميع النماذج، وجميع الأجهزة، على محرك استنتاج عام واحد.\n\nهل أصبح الاستنتاج أكثر صعوبة؟ الضغوط الثلاثة: الحجم، والأجهزة، والذكاء الوكيل\n\nتتزايد تحديات الاستنتاج اليوم، بما في ذلك:\n\nزيادة حجم النماذج بشكل هائل: من المليارات من المعاملات في البداية إلى نماذج تريليونات اليوم، مثل Kim K2، حيث تتطلب الموارد الحسابية للاستنتاج ارتفاعًا كبيرًا.\n\nتنوع النماذج والأجهزة: على الرغم من أن بنية Transformer موحدة، إلا أن التفاصيل الداخلية تتباين أكثر فأكثر، مثل sparse attention وlinear attention وغيرها من الأنواع.\n\nظهور أنظمة الوكيل (Agents): لم تعد النماذج تقتصر على الإجابة على جولة واحدة، بل تشارك في حوارات مستمرة، وتستدعي أدوات خارجية، وتنفيذ سكربتات Python، مما يتطلب من طبقة الاستنتاج الحفاظ على الحالة لفترات طويلة، ومعالجة الإدخالات غير المتزامنة، مما يزيد من مستوى التحدي التقني.\n\nالانتقال إلى التطبيق العملي: حالات نشر vLLM على نطاق واسع\n\nvLLM ليست مجرد أداة أكاديمية، بل تم نشرها بالفعل على منصات كبيرة مثل Amazon وLinkedIn وCharacter AI. على سبيل المثال، يتم تشغيل المساعد الذكي في Amazon “Rufus” بواسطة vLLM، ويعمل كمحرك استنتاج وراء عمليات البحث والتسوق.\n\nحتى أن مهندسين قاموا بنشر وظيفة من وظائف vLLM، والتي لا تزال في مرحلة التطوير، على مئات من وحدات GPU، مما يدل على الثقة الكبيرة في المجتمع.\n\nشركة vLLM: دور Inferact ورؤيتها\n\nلدعم تطوير vLLM بشكل أكبر، أسس المطورون الرئيسيون شركة Inferact، وحصلت على دعم استثماري من عدة جهات. على عكس الشركات التجارية التقليدية، تعتبر Inferact أن المصدر المفتوح هو المهمة الأولى، وقال أحد مؤسسيها، Simon Mo: “وجود شركتنا هو لجعل vLLM المعيار العالمي للاستنتاج”. يركز نموذج الأعمال الخاص بـ Inferact على صيانة وتوسيع بيئة vLLM، مع تقديم نشر ودعم على مستوى الشركات، مما يخلق مسارين للعمل: تجاري ومفتوح المصدر.\n\nتسعى Inferact حاليًا لتوظيف مهندسين يمتلكون خبرة في بنية تحتية للتعلم الآلي، خاصة في استنتاج النماذج الكبيرة، والأنظمة الموزعة، وتسريع الأجهزة. بالنسبة للمطورين الباحثين عن التحديات التقنية وتحسين الأنظمة بشكل عميق، فهي فرصة للمشاركة في بناء البنية التحتية للذكاء الاصطناعي من الجيل التالي.\n\nيأمل الفريق في بناء “طبقة تجريد” تشبه أنظمة التشغيل أو قواعد البيانات، تتيح تشغيل نماذج الذكاء الاصطناعي بشكل سلس على أجهزة وتطبيقات متنوعة.\n\nهذه المقالة تركز على بناء طبقة استنتاج عامة للذكاء الاصطناعي! كيف أصبح مشروع vLLM مفتوح المصدر خطة طموحة ليصبح المحرك العالمي للاستنتاج؟ ظهرت لأول مرة في أخبار السلسلة ABMedia.