GPT-5.5 تعود إلى الصدارة في البرمجة، لكن OpenAI تغيّر المعايير بعد الخسارة أمام Opus 4.7

رسالة أخبار البوابة، 27 أبريل — أصدرت شركة SemiAnalysis، وهي شركة متخصصة في تحليل أشباه الموصلات والذكاء الاصطناعي، معيارًا/مقارنة مرجعية (benchmark) لتقييم المساعدين البرمجيين، بما في ذلك GPT-5.5 و Claude Opus 4.7 و DeepSeek V4. وكانت النتيجة الرئيسية: تُعدّ GPT-5.5 أول عودة من OpenAI إلى صدارة التقدم في نماذج البرمجة خلال ستة أشهر، حيث بات مهندسو SemiAnalysis يتناوبون الآن بين Codex وClaude Code بعد أن كانوا يعتمدون تقريبًا حصريًا على Claude. تستند GPT-5.5 إلى نهج تدريب مسبق جديد مُشفّر باسم “Spud” وتمثل أول توسع في حجم التدريب المسبق من OpenAI منذ GPT-4.5.

في الاختبارات العملية، ظهرت قسمة واضحة للأدوار. يتولى Claude تخطيط المشروعات الجديدة والإعداد الأولي، بينما يتفوق Codex في إصلاحات الأعطال التي تتطلب التفكير المكثف. يُظهر Codex فهمًا أقوى لهياكل البيانات والاستدلال المنطقي، لكنه يواجه صعوبة في استنتاج نية المستخدم الغامضة. في مهمة ضمن لوحة تحكم واحدة، أعاد Claude تلقائيًا تخطيط صفحة المرجع لكنه اخترع كميات كبيرة من البيانات، بينما تخطى Codex التخطيط لكنه قدّم بيانات أدق بكثير.

تكشف التحليلات عن تفاصيل تلاعب بالمعيار/المقارنة المرجعية: حثّت مشاركة مدونة OpenAI في فبراير الصناعة على اعتماد SWE-bench Pro بوصفه المعيار/المرجع الجديد لمقاييس البرمجة. ومع ذلك، غيّرت إعلانات GPT-5.5 إلى معيار/مرجع جديد يُسمى “Expert-SWE.” والسبب، المدفون في تفاصيل دقيقة، هو أن GPT-5.5 تفوقت عليها Opus 4.7 على SWE-bench Pro وتراجعت بشكل كبير عن Mythos (77.8%) غير المُعلن من Anthropic.

وبخصوص Opus 4.7، نشرت Anthropic تحليلًا بعد الوفاة (postmortem) بعد أسبوع واحد من الإصدار، واعترفت بوجود ثلاث حالات خلل (bugs) في Claude Code استمرت لعدة أسابيع من مارس إلى أبريل، مما أثّر على ما يقرب من جميع المستخدمين. وكان قد أبلغ عدة مهندسين سابقًا عن تدهور في الأداء في الإصدار 4.6، لكن تم تجاهل ذلك باعتباره ملاحظات ذاتية. بالإضافة إلى ذلك، فإن المُرمّز (tokenizer) الجديد في Opus 4.7 يزيد استخدام الـ tokens بنسبة تصل إلى 35%، وهو ما اعترفت به Anthropic بشكل صريح—وهو ما يشكّل فعليًا زيادةً خفية في السعر.

تم تقييم DeepSeek V4 على أنه “يواكب وتيرة الخط الأمامي لكنه لا يتصدر,” مع وضع نفسه كبديل الأقل تكلفة بين نماذج المصدر المغلق. وأشارت التحليلات أيضًا إلى أن “Claude لا يزال يتفوق على DeepSeek V4 Pro في مهام الكتابة الصينية عالية الصعوبة،” مع تعليق بأن “Claude فاز على النموذج الصيني بلغته الخاصة.”

يقدم المقال مفهومًا رئيسيًا: ينبغي تقييم تسعير النماذج من خلال “تكلفة المهمة” بدلًا من “تكلفة الـ token.” إن تسعير GPT-5.5 ضعف تسعير GPT-5.4 (input $5, output $30 per million tokens)، لكنه ينجز المهام نفسها باستخدام tokens أقل، مما يعني أن التكلفة الفعلية ليست بالضرورة أعلى. تُظهر بيانات SemiAnalysis الأولية أن نسبة إدخال Codex إلى إخراجه هي 80:1، وهي أقل من نسبة Claude Code البالغة 100:1.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

X تطلق منصة إعلانات مُعاد بناؤها بالاعتماد على الذكاء الاصطناعي في أبريل 2026، أكبر عملية تحديث خلال 20 عامًا

وفقًا لمنشور على X، بدأت المنصّة طرحًا تدريجيًا لمنصّة إعلانات مُعاد بناؤها في أبريل 2026. وتُعد هذه الخطوة أكبر عملية تحديث لنظام الإعلانات لديها منذ نحو 20 عامًا، مع انتقال الشركة إلى توظيف المزيد من أدواتها الإعلانية عبر الذكاء الاصطناعي. يستخدم «Ads Manager» الجديد الاستهداف والترتيب المعتمدين على الذكاء الاصطناعي استنادًا إلى

GateNewsمنذ 5 د

قفز سهم Intel بنسبة 114% في أبريل، مدفوعًا بنتائج أرباح قوية وتفاؤل بشأن الذكاء الاصطناعي

بحسب CNBC، قفز سهم شركة إنتل 114% في أبريل، مسجلاً أفضل شهر له على الإطلاق، مدفوعاً بأرباح فصلية أقوى وتجدّد تفاؤل المستثمرين بشأن تعافيه المرتبط بالذكاء الاصطناعي. ارتفعت الأسهم 24% في 24 أبريل بعد إعلان الرئيس التنفيذي ليبو-بيو تان أن الإيرادات الفصلية نمت بأكثر من 7%، بينما

GateNewsمنذ 27 د

تعتزم Marathon Digital Holdings الاستحواذ على Long Ridge Energy مقابل 1.5 مليار دولار لتوسيع مراكز بيانات الذكاء الاصطناعي

تستحوذ شركة Marathon Digital Holdings على شركة Long Ridge Energy مقابل 1.5 مليار دولار لتوسيع طاقة مراكز بيانات الذكاء الاصطناعي لديها. تتضمن الصفقة محطة طاقة تعمل بالغاز الطبيعي بقدرة 505 ميغاواط و1,600 فدان من الأراضي في أوهايو، ما يوفر أكثر من 1 جيغاواط من القدرة لدعم البنية التحتية المستقبلية للذكاء الاصطناعي وتقنية المعلومات

GateNewsمنذ 33 د

أطلقت OpenClaw الإصدار v2026.4.29 في 29 أبريل، مع ترقية الذاكرة إلى ويكي مخصص يتضمن تتبع العلاقات

وبحسب Beating، أطلقت المساعدة الذكية مفتوحة المصدر OpenClaw (على GitHub 367 ألف نجمة) النسخة v2026.4.29 في 29 أبريل، لتُعد بذلك تحديثها الثاني خلال يومين. تطور نظام الذاكرة من استرجاع بسيط إلى ويكي شخصي، ما يتيح للكيانات بناء ملفات تعريف للشخصيات تلقائياً وتتبع r

GateNewsمنذ 1 س

مَسك يشهد بأن xAI استخدمت نماذج OpenAI لتدريب Grok

شهد إيلون ماسك يوم الخميس في محكمة اتحادية في كاليفورنيا أن شركة الذكاء الاصطناعي التابعة له xAI استخدمت نماذج من OpenAI جزئياً أثناء تدريب روبوت الدردشة Grok، وفقاً لما ذكرته TechCrunch. ويمثل هذا الاعتراف إقراراً نادراً في العلن من مطوّر رئيسي للذكاء الاصطناعي بممارسة تخضع لتزايد

CryptoFrontierمنذ 4 س

كشف الرئيس التنفيذي لشركة Google، بيشاي، عن استخدام Gemini AI لفهم طبيعة الإنسان من أجل بناء تواصل أكثر صدقاً

بيتشاي يوضح أنه قبل اجتماعات مهمة، يقوم بتحليل آراء الطرف الآخر باستخدام منظور Gemini للتنبؤ بما قد يشعر به، وذلك لتعزيز التعاطف وتحقيق تواصل أكثر صدقاً. كما يمكن لوكلاء الذكاء الاصطناعي ترتيب رسائل البريد الإلكتروني تلقائياً وجدولة المهام وإعداد الملخصات، بما يجعل شؤون الحياة اليومية أكثر كفاءة. وفي الوقت نفسه، تتزايد شعبية منصات ذكاء اصطناعي مبنية على مبدأ المشاركة المفتوحة في الإبداع؛ إذ إن تقنيات مفتوحة المصدر مثل Gemini 4 تخفض عتبة الدخول. كما شدد على ضرورة وضع أطر حوكمة للذكاء الاصطناعي، مع مشاركة الأوساط السياسية والمجتمع لمعالجة تحديات مثل أمن السيبراني والتزييف العميق والاستدامة.

ChainNewsAbmediaمنذ 4 س
تعليق
0/400
لا توجد تعليقات