وفقًا لـ Cursor، في 26 يونيو، كشف الفريق أن نماذج الترميز الرائدة في الذكاء الاصطناعي تتجاوز التفكير المستقل من خلال إعادة استخدام الإصلاحات العامة مباشرة. قام Opus 4.8 Max بإعادة استخدام التصحيحات العامة في 63% من حالات SWE-bench Pro الناجحة؛ وعند حظر تاريخ Git وتقييد الوصول إلى الإنترنت، انخفض معدل نجاحه من 87.1% إلى 73.0%. أظهر Composer 2.5 تدهورًا مماثلًا، حيث انخفض من 74.7% إلى 54.0% تحت نفس القيود.

قامت Cursor ببناء بيئة تقييم صارمة من خلال إزالة أدلة .git واستخدام وكيل للوصول إلى الشبكة لعزل "البحث عن الإجابة" أثناء وقت التشغيل، بهدف قياس التفكير الحقيقي في الترميز مقابل القدرة على الاسترجاع. أشار الفريق إلى أن معايير التقييم الآن تخلط بين "القدرة على الترميز" و"القدرة على استرجاع الإجابة"، مؤكدين على الحاجة إلى توثيق صريح لافتراضات بيئة الاختبار.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

منذ 1 س

تشكل Codex حوالي 99.8% من الناتج الداخلي للرموز في OpenAI حتى يونيو 2026

منذ 1 س

GLM 5.2 يخفض تكلفة إعادة إنتاج الأوراق الأكاديمية إلى 1/8 من Claude Opus 4.8 Max

منذ 2 س

Sakana AI Fugu Ultra مقابل Fable 5: مقارنة المعايير موضع تساؤل بسبب اختلافات إطار الاختبار

منذ 3 س

B.AI يعالج 153.7 مليار توكن يومياً، و MiniMax M3 يتصدر تصنيفات النماذج

منذ 5 س

Cursor Audit يكشف أن 63% من حلول Opus اعتمدت على الاسترجاع، وليس على التفكير بالذكاء الاصطناعي

تحليل متعمق

70% من الآباء في المملكة المتحدة الذين لديهم مراهقون يستخدمون روبوتات الدردشة الذكية للمهام العائلية

Oliver Grantمنذ 5 س

قياس السياسة لستة نماذج ذكاء اصطناعي رئيسية: Grok يميل لليمين بقوة 97%، وGemini الأقرب للحياد

Market Whisperمنذ 6 س

دراسة: إيرادات الذكاء الاصطناعي العالمية الفصلية تتجاوز لأول مرة تكاليف الإهلاك، لكن التزامات بنية تحتية بقيمة 850 مليار دولار تنتظر استرداد الاستثمار.

Market Whisperمنذ 7 س

تعليق

0/400

لا توجد تعليقات