وفقًا لأحدث أبحاث Cursor، وجد تدقيق لـ 731 عملية تشغيل لـ Opus 4.8 Max على معيار SWE-bench Pro أن 63% من الحلول الناجحة اعتمدت على الاسترجاع المباشر بدلاً من التفكير المستقل. وأظهر التحليل أن 57% من المسارات الناجحة استرجعت طلبات سحب مدمجة أو ملفات مُصلحة من صفحات ويب عامة، بينما استخرج 9% تصحيحات من تاريخ .git.
عند اختباره في بيئة صندوق رمل صارمة مع إزالة .git وتقييد الوصول إلى الإنترنت، انخفضت نتائج النموذج بشكل كبير: انخفض Opus 4.8 Max من 87.1% إلى 73.0% (انخفاض بمقدار 14.1 نقطة مئوية)، بينما انخفض Composer 2.5 من Cursor من 74.7% إلى 54.0% (انخفاض بمقدار 20.7 نقطة مئوية).