ملخص سريع
الرقم الذي كانت تستخدمه جميع المختبرات الكبرى في الذكاء الاصطناعي للمطالبة بالتفوق في البرمجة أصبح بلا معنى. نشرت OpenAI هذا الأسبوع منشورًا أعلنت فيه أن SWE-bench Verified، المعيار الأساسي لقياس قدرات البرمجة في الذكاء الاصطناعي، مليء بالاختبارات المعيبة وتسرب بيانات التدريب لدرجة أنه لم يعد يعطيك أي معلومات مفيدة حول ما إذا كان النموذج قادرًا فعلاً على كتابة البرمجيات. يعمل المعيار على النحو التالي: تعطي الذكاء الاصطناعي مشكلة حقيقية من GitHub من مشروع بايثون مفتوح المصدر، وتطلب منه إصلاح الخطأ دون رؤية الاختبارات، وتتحقق مما إذا كانت تصحيحه يجعل الاختبارات الفاشلة تمر دون أن يكسر شيئًا آخر.
أنشأت OpenAI SWE-bench Verified في أغسطس 2024 كنسخة أنظف من المعيار الأصلي لعام 2023، واستعانت بـ 93 مهندس برمجيات لتصفية المهام التي كانت مستحيلة أو سيئة التصميم. نجحت عملية التنقية بشكل كافٍ ليدعو كل مختبر كبير إلى الاعتماد على نتائجه كدليل على التقدم. عندما أطلقت Anthropic Claude Opus 4 في مايو 2025، ذكرت Decrypt أن النموذج حقق 72.5% على SWE-bench Verified، متفوقًا على GPT-4.1 الذي حقق 54.6% و Gemini 2.5 Pro الذي حقق 63.2%. وكان هذا المعيار هو المقياس المهم. منذ ذلك الحين، أظهرت كل مختبرات الذكاء الاصطناعي من أمريكا إلى الصين أداء SWE للمطالبة بالعرش كأفضل نموذج للقدرات البرمجية.
الصورة: Minimax
الآن تقول OpenAI إن السباق كان وهماً جزئياً. وفقًا للتقرير، قام الفريق بمراجعة 138 مهمة فشل فيها GPT-5.2 بشكل متكرر عبر 64 تجربة مستقلة، وراجعها ستة مهندسين. وخلص في النهاية إلى أن 59.4% من تلك المهام معطوبة. حوالي 35.5% منها تحتوي على اختبارات مكتوبة بشكل ضيق جدًا بحيث تتطلب اسم وظيفة معين لم يُذكر أبدًا في وصف المشكلة. و18.8% أخرى تتحقق من ميزات لم تكن جزءًا من المشكلة الأصلية، وجُمعت من طلبات سحب غير ذات صلة. مشكلة التلوث تعمل تقريبًا على النحو التالي: يستمد SWE-bench مشاكله من مستودعات مفتوحة المصدر تتصفحها معظم شركات الذكاء الاصطناعي عند بناء مجموعات التدريب. اختبرت OpenAI ما إذا كانت GPT-5.2، وClaude Opus 4.5، وGemini 3 Flash Preview قد شاهدت حلول الاختبار أثناء التدريب. جميعها كانت قد شاهدتها. باستخدام معرف مهمة فقط وتلميح موجز، استطاع كل نموذج استنساخ الحل البرمجي الدقيق من الذاكرة، بما في ذلك أسماء المتغيرات والتعليقات التوضيحية التي لا تظهر في وصف المهمة. في حالة واحدة، أظهرت سجلات تفكير GPT-5.2 أنها كانت تتساءل أن معلمة معينة “تمت إضافتها حول Django 4.1” — وهو تفصيل موجود فقط في ملاحظات إصدار Django، وليس في وصف المهمة. كانت تجيب على سؤال سبق لها أن رأته. توصي OpenAI الآن بـ SWE-bench Pro، وهو معيار أحدث من Scale AI يستخدم قواعد برمجية أكثر تنوعًا وترخيصات تقلل من تعرض بيانات التدريب. الانخفاض في الأداء مذهل: النماذج التي تجاوزت 70% على المعيار القديم حققت حوالي 23% على SWE-bench Pro في القسم العام، وأقل على المهام الخاصة. على لوحة النتائج العامة الحالية لـ SWE-bench Verified، لا تزال OpenAI بعيدة عن منصة التتويج. إن تقاعد معيار حيث تخسر وتأييد واحد يبدأ الجميع عند 23% يعيد ضبط لوحة النتائج في لحظة مناسبة ويجعل ادعاءات المنافسين أقل إثارة للإعجاب.
هذا مهم بشكل خاص بالنظر إلى أن النسخة الأحدث والمتوقعة بشدة من DeepSeek يُشاع أنها ستتفوق أو تقترب جدًا من نماذج الذكاء الاصطناعي الأمريكية، خاصة في المهام الوكيلة والبرمجية مع نموذج مفتوح المصدر مجاني. قد يكون هذا النموذج على بعد أيام من الإصدار، ويمكن أن يكون SWE-bench Verified مقياسًا رئيسيًا لقياس جودته.
قالت OpenAI إنها تبني تقييمات خاصة لن تُنشر قبل الاختبار، مشيرة إلى مشروع GDPVal حيث يكتب خبراء المجال مهامًا أصلية تُقيم بواسطة مراجعين بشريين مدربين. مشكلة المعيار ليست جديدة، وليست فريدة من نوعها في البرمجة. لقد تنقلت مختبرات الذكاء الاصطناعي عبر تقييمات متعددة، كل منها مفيد حتى يتم تدريب النماذج عليها أو حتى تتضح ضيق المهام. لكن ما يميز هذه الحالة هو أن OpenAI ضخت في SWE-bench Verified، وروجت له عبر إصدارات النماذج، والآن توثق علنًا مدى فشله بشكل شامل — بما في ذلك إظهار نماذجها الخاصة وهي تتغش على الاختبار.