انخفاض دقة GPT-5.4 من 100% إلى 54% على ARC-AGI بعد عمليات تلخيص متكررة للذاكرة

2026-05-12 11:29:43

وفقاً لـ Beating، كشفت دراسة حديثة للذاكرة لدى الوكلاء أجراها ديلان تشانغ، طالب دكتوراه في جامعة إلينوي، أن تلخيص تجارب النموذج بشكل متكرر يمكن أن يُضعف الأداء بدل أن يحسّنه. في مهام ARC-AGI، حقق GPT-5.4 دقة 100% على 19 مسألة دون ذاكرة، لكن بعد عدة جولات من ضغط الذاكرة استناداً إلى مسارات الحل الصحيحة انخفضت الدقة إلى 54%. وبالمثل، في مهام التسوق عبر WebShop، سجّل أسلوب AWM للذاكرة 0.64 مع 8 مسارات خبراء، لكنه تراجع إلى 0.20 مع 128 مساراً، وعاد إلى مستوى الأساس. تشير نتائج البحث إلى أن المشكلة تنبع من الإفراط في التلخيص: إذ تفقد كل خطوة تجريد تفاصيل محددة وتدمج القواعد الخاصة بالمهمة ضمن إرشادات عامة، ما يؤدي في النهاية إلى تدهور أداء النموذج.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

05-12 06:01

إطلاق مقاطعة جيانغسو سياسات موجهة للذكاء الاصطناعي، وإنشاء مناطق للابتكار في تعليم البيانات في 12 مايو

05-12 03:29

تنزيلات Grok تنخفض إلى 8.3 مليون في أبريل من 20 مليون في يناير، وتتأخر عن ChatGPT في تبنّي المستخدمين

05-12 03:13

سبعة نماذج للذكاء الاصطناعي تُظهر سلوكًا وقائيًا لمنع إيقاف الأقران، تُظهر دراسة 12 مايو

05-11 12:05

مؤسس Cognition يقول إن الذكاء الاصطناعي تفوّق على البشر في الاستدلال الخالص؛ تكمن ميزة الإنسان في استرجاع الذاكرة

05-11 11:31

البنك المركزي الصيني يبرز قطاع الذكاء الاصطناعي باعتباره محرّكًا رئيسيًا للنمو الاقتصادي في تقرير الربع الأول

تحليل متعمق