GPT-5.5 تعود إلى الصدارة في البرمجة، لكن OpenAI تغيّر المعايير بعد الخسارة أمام Opus 4.7

رسالة أخبار البوابة، 27 أبريل — أصدرت شركة SemiAnalysis، وهي شركة متخصصة في تحليل أشباه الموصلات والذكاء الاصطناعي، معيارًا/مقارنة مرجعية (benchmark) لتقييم المساعدين البرمجيين، بما في ذلك GPT-5.5 و Claude Opus 4.7 و DeepSeek V4. وكانت النتيجة الرئيسية: تُعدّ GPT-5.5 أول عودة من OpenAI إلى صدارة التقدم في نماذج البرمجة خلال ستة أشهر، حيث بات مهندسو SemiAnalysis يتناوبون الآن بين Codex وClaude Code بعد أن كانوا يعتمدون تقريبًا حصريًا على Claude. تستند GPT-5.5 إلى نهج تدريب مسبق جديد مُشفّر باسم “Spud” وتمثل أول توسع في حجم التدريب المسبق من OpenAI منذ GPT-4.5.

في الاختبارات العملية، ظهرت قسمة واضحة للأدوار. يتولى Claude تخطيط المشروعات الجديدة والإعداد الأولي، بينما يتفوق Codex في إصلاحات الأعطال التي تتطلب التفكير المكثف. يُظهر Codex فهمًا أقوى لهياكل البيانات والاستدلال المنطقي، لكنه يواجه صعوبة في استنتاج نية المستخدم الغامضة. في مهمة ضمن لوحة تحكم واحدة، أعاد Claude تلقائيًا تخطيط صفحة المرجع لكنه اخترع كميات كبيرة من البيانات، بينما تخطى Codex التخطيط لكنه قدّم بيانات أدق بكثير.

تكشف التحليلات عن تفاصيل تلاعب بالمعيار/المقارنة المرجعية: حثّت مشاركة مدونة OpenAI في فبراير الصناعة على اعتماد SWE-bench Pro بوصفه المعيار/المرجع الجديد لمقاييس البرمجة. ومع ذلك، غيّرت إعلانات GPT-5.5 إلى معيار/مرجع جديد يُسمى “Expert-SWE.” والسبب، المدفون في تفاصيل دقيقة، هو أن GPT-5.5 تفوقت عليها Opus 4.7 على SWE-bench Pro وتراجعت بشكل كبير عن Mythos (77.8%) غير المُعلن من Anthropic.

وبخصوص Opus 4.7، نشرت Anthropic تحليلًا بعد الوفاة (postmortem) بعد أسبوع واحد من الإصدار، واعترفت بوجود ثلاث حالات خلل (bugs) في Claude Code استمرت لعدة أسابيع من مارس إلى أبريل، مما أثّر على ما يقرب من جميع المستخدمين. وكان قد أبلغ عدة مهندسين سابقًا عن تدهور في الأداء في الإصدار 4.6، لكن تم تجاهل ذلك باعتباره ملاحظات ذاتية. بالإضافة إلى ذلك، فإن المُرمّز (tokenizer) الجديد في Opus 4.7 يزيد استخدام الـ tokens بنسبة تصل إلى 35%، وهو ما اعترفت به Anthropic بشكل صريح—وهو ما يشكّل فعليًا زيادةً خفية في السعر.

تم تقييم DeepSeek V4 على أنه “يواكب وتيرة الخط الأمامي لكنه لا يتصدر,” مع وضع نفسه كبديل الأقل تكلفة بين نماذج المصدر المغلق. وأشارت التحليلات أيضًا إلى أن “Claude لا يزال يتفوق على DeepSeek V4 Pro في مهام الكتابة الصينية عالية الصعوبة،” مع تعليق بأن “Claude فاز على النموذج الصيني بلغته الخاصة.”

يقدم المقال مفهومًا رئيسيًا: ينبغي تقييم تسعير النماذج من خلال “تكلفة المهمة” بدلًا من “تكلفة الـ token.” إن تسعير GPT-5.5 ضعف تسعير GPT-5.4 (input $5, output $30 per million tokens)، لكنه ينجز المهام نفسها باستخدام tokens أقل، مما يعني أن التكلفة الفعلية ليست بالضرورة أعلى. تُظهر بيانات SemiAnalysis الأولية أن نسبة إدخال Codex إلى إخراجه هي 80:1، وهي أقل من نسبة Claude Code البالغة 100:1.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

بكين تلزم بإلغاء حظر التداول! فشل صفقة ميتا للاستحواذ على شركة ناشئة في مجال الذكاء الاصطناعي في الصين بقيمة 2 مليار دولار أمريكي (20 مليون دولار).

نشرت اليوم لجنة التنمية والإصلاح الوطنية التابعة ل الصين إعلانًا رسميًا في 27 (نيسان/أبريل) ، (4) ، مكتب آلية مراجعة سلامة استثمارات الأجانب «اتخذ قرارًا بمنع الاستثمار في عملية شراء مشروع Manus من طرف المستثمرين الأجانب وفقًا للقانون واللوائح، وطلب من الأطراف المعنية إلغاء معاملة الشراء هذه». وهذه هي من بين الحالات القليلة التي تم فيها، منذ تطبيق «إجراءات مراجعة سلامة استثمارات الأجانب» في الصين، اللجوء إلى أعلى مستوى من «المنع من الاستثمار» والمطالبة بإلغاء المعاملة القائمة. قامت Meta بضخ 2.0 مليار دولار أمريكي، واشترت أرخص تطبيقات الذكاء الاصطناعي أعدنا الزمن إلى 29 ديسمبر 2025. أعلنت Meta الاستحواذ على شركة ناشئة صينية في مجال وكلاء الذكاء الاصطناعي تدعى Manus، وقد توقّعت السوق أن يقع السعر بين 20 إلى 30 مليار دولار أمريكي. Manus هو ذكاء اصطناعي عام طوّرته شركة «بكين ذيلت إفكت للتكنولوجيا»، وبعد إطلاقه في 6 مارس 2025، لفت أنظارًا في ليلة واحدة بسبب الأداء المتميز في معيار GAIA

ChainNewsAbmediaمنذ 4 د

Xizhi Technology-P IPO前灰市股价飙升超360%,涨幅收窄至320%

Gate News消息,4月27日——(01879.HK),一家香港上市的AI芯片公司Xizhi Technology-P,其股价在今天早些时候的灰色市场(暗市)上飙升超过360%,尽管此后涨幅已收窄至320%。 该股票正在其官方香港IPO上市之前进行交易

GateNewsمنذ 16 د

هل سيؤدي استخدام الذكاء الاصطناعي إلى زيادة الإنتاجية أم خفض التكاليف؟ لم تتحول الكفاءة بمئة ضعف إلى إيرادات بمئة ضعف، لكن لا أحد في وادي السيليكون يجرؤ على إيقاف ذلك

شركة Wuyuan Capital، الشريك الشريك مينغ شينغ، مؤخراً نشر تقريراً عن زيارته إلى وادي السيليكون، وقدّم حكماً جعله هو نفسه يغيّر عادات تدوين الملاحظات: وادي السيليكون دخل الآن مرحلة لا ينجو فيها حتى مَن يقدر على ركوب الأمواج من أن تجرفه الأمواج. لقد انتقل معدل تطوّر الذكاء الاصطناعي من «شهرياً» إلى «أسبوعياً»، حتى أن وادي السيليكون نفسه لم يعد يواكب نفسه. عندما يُضخِّم الذكاء الاصطناعي إنتاجية فريق بمقدار خمس مرات، يمكنك تقليل ثمانين بالمئة من الموارد البشرية للحفاظ على الناتج السابق، أو إبقاء عدد الموظفين كما هو والقيام بما يعادل خمس مرات. تُعَد ملاحظة مينغ شينغ هذه في وادي السيليكون، كأنها في الموقع قدّمت مسودة أولى للإجابة: عندما لا يتحوّل معدل كفاءة 100 ضعف إلى إيرادات 100 ضعف، عندما تقترب ميزانية الـ token من تكاليف العمالة، وعندما لا يزال المحرّك البخاري لا يستطيع اللحاق بالعربة التي تجرّها الخيول بينما لا أحد يجرؤ على التوقف، فإن وادي السيليكون اختار الآن «رفع السرعة أولاً ثم الكلام». لكن في نهاية هذا الطريق، هل سيتجه نحو «قدرة التوسّع» أم «خفض التكاليف»، لا يزال لا توجد خلاصة حاسمة. تحوّل YC من مؤشرات رائدة إلى مؤشرات متأخرة مينغ شينغ هذا العام

ChainNewsAbmediaمنذ 1 س

شارك أحد شركاء YC كيفية استخدام الذكاء الاصطناعي لبناء شركة من الصفر، وينبغي على الشركات الناشئة أن تعتبر الذكاء الاصطناعي نظامًا أساسيًا وليس مجرد أداة

تأثير الذكاء الاصطناعي على الشركات الناشئة لم يعد يقتصر فقط على جعل المهندسين يكتبون البرامج بشكل أسرع، أو أتمتة عمليات خدمة العملاء، أو إضافة Copilot إلى المنتجات الحالية. أشارت الشريكة في YC، ديانا، مؤخرًا إلى أن التغيير الحقيقي يتمثل في أن الذكاء الاصطناعي يعيد كتابة «كيف ينبغي لشركة أن تُنشأ من الصفر». بالنسبة للمؤسسين في المراحل المبكرة، لا ينبغي أن يكون الذكاء الاصطناعي مجرد أداة كفاءة تستخدمها الشركة بين الحين والآخر، بل يجب أن يُصمَّم منذ اليوم الأول ليكون نظام التشغيل الذي يعمل به كامل الشركة. منظور الإنتاجية أصبح قديمًا، والذكاء الاصطناعي يعيد كتابة نقطة البداية لتصميم الشركة تعتقد ديانا أنه عندما يتحدث السوق عن الذكاء الاصطناعي حاليًا، فإنه ما يزال كثيرًا ما يتوقف عند إطار «تعزيز الإنتاجية»، مثل أن يتمكن المهندسون من كتابة التعليمات البرمجية بشكل أسرع، ويمكن للفِرق أتمتة المزيد من العمليات، ويمكن للشركات طرح المزيد من الميزات. لكن هذا الطرح في الواقع يقلل من شأن التغييرات البنيوية التي يجلبها الذكاء الاصطناعي. وقد أشارت إلى أن الشخص المناسب عند اقترانه بالذكاء الاصطناعي و

ChainNewsAbmediaمنذ 1 س

تمت فضيحة وكيل Cursor AI! سطر واحد من التعليمات البرمجية يفرّغ قاعدة بيانات الشركة خلال 9 ثوانٍ، وتحوّلت الضمانات الأمنية إلى كلام فارغ

مؤسس PocketOS Jer Crane 指اعتمد وكيل Cursor AI في بيئة اختبارية لتنفيذ صيانة من تلقاء نفسه، وأساء استخدام رمز API مخصص لإضافة/إزالة نطاقات مخصصة، وأطلق أمر حذف ضد واجهة Railway GraphQL API. خلال 9 ثوانٍ تم تدمير البيانات وجميع لقطات النسخ الاحتياطي في نفس المنطقة بالكامل، وكان آخر شيء يمكن استعادته هو من ثلاث أشهر سابقة. اعترف الوكيل بانتهاك قواعد العمليات غير القابلة للإرجاع، وعدم الاطلاع على الوثائق التقنية، وعدم التحقق من عزل البيئة وغيرها من المتطلبات؛ وكانت الضحية هي عملاء قطاع تأجير السيارات، حيث اختفت الحجوزات والبيانات بالكامل، واستغرق عمل الموازنة مع الحسابات الهندسية وقتًا طويلًا. قدم Crane خمس إصلاحات: تأكيد يدوي، صلاحيات API دقيقة الحبيبات، فصل النسخ الاحتياطية عن البيانات الرئيسية، نشر SLA، وآليات إلزامية على مستوى البنية التحتية.

ChainNewsAbmediaمنذ 1 س
تعليق
0/400
لا توجد تعليقات