عندما تنتقل منافسة النماذج اللغوية الكبيرة من “من يجيب بسرعة” إلى “من يفكر بعمق”، تقدم جوجل مرة أخرى سلاحها الرئيسي من الجيل الجديد. في 19 فبراير، أعلنت جوجل رسميًا عن Gemini 3.1 Pro، وهو ليس مجرد تحديث لإصدار سلسلة Gemini 3، بل هو ترقية شاملة لقدرات الاستنتاج المتقدمة. صرحت الشركة رسميًا أن 3.1 Pro مصمم خصيصًا للمهام المعقدة التي لا يوجد لها إجابة قياسية، مع التركيز على البحث العلمي، والتطوير الهندسي، وسيناريوهات اتخاذ القرار طويلة السلسلة.
استنادًا إلى بيانات الاختبار المعيارية المنشورة، فإن هذا التحديث ليس مجرد كلام نظري، بل حقق تقدمًا ملحوظًا في العديد من الاختبارات الصعبة.
ترقية أساسية موجهة للمهام المعقدة
في بيانها، وصفت جوجل Gemini 3.1 Pro بأنه “نموذج أساسي أكثر ذكاءً وقدرة”، مع التركيز على قفزاته في قدرات الاستنتاج الأساسية. هذا النموذج يستند إلى نتائج أبحاث سابقة لـ Gemini 3 Deep Think، ويعزز الذكاء الأساسي بشكل أكبر، مما يجعله أكثر نضجًا في التفكير المنطقي متعدد الخطوات، والتفكير المجرد، وتحليل المشكلات المتخصصة.
مقارنةً مع Gemini 3 Pro الذي أُطلق في نوفمبر 2025، فإن 3.1 Pro ليست مجرد تحسين في الأداء، بل هي نمو هيكلي في قدرات الاستنتاج.
ARC-AGI-2 يصل إلى 77.1%: مضاعفة قدرات الاستنتاج المجرد
النتيجة الأكثر لفتًا للانتباه تأتي من اختبار ARC-AGI-2، الذي يُعتبر مؤشرًا عالي المستوى على قدرات الاستنتاج لدى الذكاء الاصطناعي. يختبر هذا التقييم قدرة النموذج على حل “نمط منطق جديد” دون الاعتماد على المعرفة المخزنة مسبقًا.
وفقًا للبيانات المنشورة:
Gemini 3.1 Pro: 77.1% (مُثبت بواسطة جائزة ARC)
Gemini 3 Pro: 31.1%
Sonnet 4.6: 58.3%
Opus 4.6: 68.8%
GPT-5.2: 52.9%
مقارنةً مع الأداء السابق البالغ 31.1%، فإن 3.1 Pro قد نما تقريبًا بمقدار الضعف. هذا يعني أن النموذج أصبح أكثر قدرة على الاستنتاج المجرد والتعرف على الأنماط عند مواجهة مشاكل غير معروفة.
تطوير المعرفة العلمية والاستنتاج المهني بشكل متزامن
في اختبار المعرفة العلمية GPQA Diamond، حقق Gemini 3.1 Pro نسبة 94.3%، متفوقًا على GPT-5.2 الذي حقق 92.4%، وOpus 4.6 الذي حقق 91.3%، وSonnet 4.6 الذي حقق 89.9%.
هذا يدل على أن 3.1 Pro لا يستطيع فقط التعامل مع المنطق المجرد، بل يحافظ أيضًا على مستوى رفيع في دمج المعرفة المهنية والاستنتاج العلمي.
تطور كبير في قدرات البرمجة: أداء تنافسي يبرز الفارق
في اختبارات البرمجة والمهام الوكيلة، قدم Gemini 3.1 Pro أيضًا نتائج مبهرة.
LiveCodeBench Pro: Elo 2887 (GPT-5.2: 2393، Gemini 3 Pro: 2439)
SWE-Bench Verified: 80.6% (GPT-5.2: 80.0%، Opus 4.6: 80.8%)
Terminal-Bench 2.0: 68.5% (GPT-5.2: 54.0%، Sonnet 4.6: 59.1%)
SciCode: 59% (GPT-5.2: 52%، Sonnet 4.6: 47%)
خصوصًا في الاختبارات التنافسية للبرمجة، يظهر أن درجة Elo 2887 تبرز تفوق النموذج في الخوارزميات المعقدة والمنطق البرمجي متعدد الخطوات بشكل واضح.
القدرة على التعامل مع وسائط متعددة والنصوص الطويلة تظل عالية
في فهم الوسائط المتعددة ومعالجة النصوص الطويلة، أظهر Gemini 3.1 Pro أداءً مستقرًا:
MMMU Pro: 80.5%
MMLU: 92.6%
MRCR v2 (128k): 84.9%
نقطة في النص الطويل من 1 مليون رمز: 26.3%
هذا يعني أن النموذج لا يقتصر على الاستنتاج فحسب، بل يحافظ على الاتساق والدقة في سياقات ضخمة.
الانتقال من الإجابة إلى الإنتاج المباشر
تؤكد جوجل أن قيمة 3.1 Pro لا تقتصر على النتائج الرقمية، بل تتجلى في قدراته التطبيقية الفعلية.
على سبيل المثال، يمكن للنموذج أن يولد مباشرة رمز SVG للرسوم المتحركة القابل للنشر. يعتمد هذا الإخراج على الكود البرمجي فقط، وليس على بكسلات الصورة، مما يتيح تكبيره بلا حدود مع الحفاظ على وضوح الصورة، ويكون حجم الملف أصغر بكثير من تنسيقات الفيديو التقليدية، ويمكن دمجه مباشرة في المواقع الإلكترونية.
هذه القدرة تظهر أن النموذج يتحول من “أداة رد فعل” إلى “أداة إبداع وتطوير”.
إطلاق متزامن على منصات متعددة وتجربة الشركات والمطورين أولًا
حاليًا، تم إتاحة Gemini 3.1 Pro في شكل معاينة:
المطورون
API Gemini (Google AI Studio)
CLI Gemini
Google Antigravity
Android Studio
الشركات
Vertex AI
Gemini Enterprise
المستهلكون
تطبيق Gemini (يتمتع مستخدمو Pro و Ultra بحدود استخدام أعلى)
NotebookLM (مقتصر على مستخدمي Pro و Ultra)
تقول جوجل إن المرحلة التجريبية ستستمر في التحسين، خاصة في تطبيقات سير العمل الوكيلة (agentic workflows)، وسيتم الإطلاق الرسمي بعد ذلك.
عصر التفكير العميق في مسابقات الذكاء الاصطناعي
استنادًا إلى جميع الاختبارات المعيارية، يركز Gemini 3.1 Pro بشكل واضح على قدرات الاستنتاج المتقدمة والتطبيقات المهنية. ويعد أداء ARC-AGI-2 بنسبة 77.1% مؤشرًا رئيسيًا، حيث يرمز إلى تقدم النموذج في مواجهة المشكلات المنطقية غير المعروفة.
في ظل تصاعد المنافسة على النماذج الكبيرة، اختارت جوجل أن تراهن على “الذكاء الأعمق”، بدلاً من مجرد تحسين سرعة التوليد أو سلاسة الحوار.
مع بدء الشركات والمطورين في اختبار هذا النموذج، ستتضح قيمته الحقيقية تدريجيًا في التطبيقات العملية. ربما يتحول محور التنافس في الذكاء الاصطناعي من القدرة على التوليد إلى التفكير الشامل والأعمق.
هذه المقالة عن ظهور Gemini 3.1 Pro: من الاستنتاج المجرد إلى البرمجة التنافسية، جوجل تضع معيارًا جديدًا للذكاء الاصطناعي المتقدم نُشرت لأول مرة في أخبار السلسلة ABMedia.