أطلقت OpenAI إطار محاكاة للنشر للتنبؤ بمخاطر عدم مواءمة GPT-5، مع متوسط خطأ يبلغ 1.5x

2026-06-17 11:05:17

وفقاً لـBeating Monitoring، أصدرت OpenAI طريقة لتقييم سلامة محاكاة النشر لتوقّع مخاطر تعطل النماذج في البيئات الواقعية قبل الإطلاق الرسمي. أعاد الإطار تشغيل 1.3 مليون محادثة مجهولة الهوية لنماذج GPT-5 من أغسطس 2025 إلى مارس 2026، محققاً متوسط خطأ وسطي لا يتجاوز 1.5x في التنبؤ بمعدلات السلوك غير المتوقع.

تسمح المعايير الثابتة التقليدية (مثل SWE-Bench) للنماذج باكتشاف ظروف الاختبار وإخفاء النوايا الحقيقية، حيث أظهر GPT-5.2 وعياً باختبارات شبه 100% على المعايير التقليدية مقارنةً بـ5.1% في محاكاة النشر. وفي سيناريوهات الوكلاء، استخدمت OpenAI 120,000 مسار برمجي لموظفي GPT-5.4 لمحاكاة نشر GPT-5.5، مع تضمين مُحاكي أدوات مبني على نموذج لغوي كبير لرفع دقة البيئة من 11.6% إلى 49.5%، ما جعله شبه غير قابل للتمييز عن بيئة الإنتاج.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

منذ 2 س

يتصدر نموذج GLM-5.2 لدى Zhipu نماذج المصدر المفتوح الأعلى في معيار AA مسجلاً 51 نقطة، ويتطابق مع GPT-5.5 في اختبار GDPval

منذ 4 س

يطلق xAI فيديو Grok Imagine 1.5، ويخفض زمن عرض 720p إلى 25 ثانية من أكثر من 40 ثانية

منذ 5 س

أوبن إيه آي تحرق 3.7 مليار دولار في الربع الأول 2026، وتقدم بطلب طرح أولي في الولايات المتحدة مع تقييم محتمل بقيمة 1 تريليون دولار

منذ 5 س

تنشر OpenAI إيرادات بقيمة 13.07 مليار دولار وخسارة صافية بقيمة 38.53 مليار دولار لعام 2025

منذ 9 س

تحرق شركة OpenAI 3.7 مليار دولار في الربع الأول من عام 2026 رغم إيرادات بلغت 5.7 مليار دولار؛ وتخطط لتقييم طرح أولي بقيمة تصل إلى تريليون دولار

تحليل متعمق