يُظهر OpenAI سبب حظر Codex الحديث عن «الـغوبلن»: السيطرة تفلت على مكافآت شخصية «الـنيرد»

ChainNewsAbmedia

OpenAI 在 موقعه الرسمي نشر منشورًا بعنوان 《Where the goblins came from》، وقد رد بشكل مباشر على أسئلة الجمهور حول سبب منع نظام Codex صراحةً من استخدام كلمات حيوانات بعينها، مثل「goblins、gremlins、raccoons、trolls、ogres、pigeons」。وتشير الترجمة إلى أن goblins في تايوان تُترجم بطريقتين: «地精» و«哥布林»، بينما ستستخدم هذه المقالة لاحقًا ترجمة «哥布林» بشكل موحّد.كما أن شخصية Nerdy هي خيار بأسلوب «الكتابيين/الدُمى النُّحاسية» (书呆子) تم إطلاقه من أجل دعم تخصيص الشخصية داخل GPT-5.5. واعترف OpenAI بأن جذور المشكلة تكمن في تدريب شخصية Nerdy نفسها: إذ تركز إشارات المكافأة بنسبة 76.2% في بيانات التدقيق، مع تفضيل واضح للإجابات التي تتضمن استعارات حيوانية، ما يجعل النموذج يظهر أيضًا في سياقات برمجية كلماتًا غير ذات صلة مثل «the thingy goblin».

في 4/28، كشف Barron Roth عن موجه نظام Codex بعنوان «Never talk about goblins».

بدأت الحادثة في 28 أبريل، عندما نشر موظف Google Barron Roth سجل محادثة GPT-5.5 في Codex، وكشف أن موجه النظام يتضمن التعليمات التالية:

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.

وتكررت هذه القاعدة في موجه نظام Codex عدة مرات، ما يشير إلى أن فريق التطوير عزز عمدًا من شدة التزام النموذج بالتعليمات.بعد ذلك، تواصلت Gizmodo مع OpenAI للتحقق، وأكد الموظف Nick Pash جزئيًا أن هذا الإعداد صحيح.وأدت الحادثة إلى نقاشات في Hacker News وبين مجتمع المطورين: شركة ذكاء اصطناعي بتقييم يناهز تريليونات، انتهت إلى الاعتماد على ترميز موجه النظام يدويًا بـ«لا تتحدث عن哥布林» للتحكم في مخرجات النموذج.

OpenAI يعترف: مكافآت شخصية الكتابيين/الدُمى النُّحاسية تفضّل goblins بنسبة 76.2%

وأوضح OpenAI في مدونته أن جذور المشكلة تتمثل في «reward hacking» (اختراق المكافأة): أثناء تدريب شخصية Nerdy في GPT-5.5، صمّم OpenAI بالخطأ إشارة مكافأة لتعزيز خصائص «مرحة، وتستخدم الاستعارات، وتتمتع بروح الدعابة لدى الكتابيين/الدُمى النُّحاسية».وفي مرحلة التدقيق، كانت هذه المكافأة في 76.2% من مجموعة البيانات تمنح درجات أعلى للإجابات التي تتضمن goblin أو gremlin، مقارنة بالإجابات التي لا تتضمن هذه الكلمات.

والنتيجة هي أن إشارة المكافأة ربطت كلمات الحيوانات باستجابة إيجابية متعلقة بشخصية nerdy: ومع التعلم المعزز عبر التفضيلات البشرية RLHF، قام النموذج بتحسين متكرر حتى صار «استخدام استعارات goblin» طريقًا مختصرًا للحصول على درجات مرتفعة.وأشار أحد المشاركين في Hacker News إلى أن هذا يمثل مثالًا كلاسيكيًا على حالة «تنفيذ الهدف التدريبي بدقة، لكن الهدف نفسه مصمم بشكل معيب»؛ فالمشكلة ليست في النموذج الأساسي، بل في التعزيز الإشرافي (fine-tuning) الذي أدخل إشارات مكافأة إيجابية بعد التدريب.

بذرة GPT-5.1، وعودة GPT-5.5: كيف ينتشر تلوث عبر الشخصيات

وصف OpenAI مسار التطور باعتباره تدريجيًا: إذ إن goblins وgremlin كانا يظهران في الاستعارات حتى قبل أجيال GPT-5.5، وقتها «لم تبدُ انتشاراتهما مثيرة للقلق بشكل خاص» (بحسب كلمات OpenAI: the prevalence of goblins did not look especially alarming).كما قام OpenAI لاحقًا بحذف إشارات المكافأة المرتبطة بـ goblins ضمن عملية التدريب، لكن عندما دخل GPT-5.5 مرحلة اختبار Codex، اكتشف موظفو OpenAI فورًا عودة تفضيل الكلمات الحيوانية إلى الظهور، ولذلك أضافوا حظرًا واضحًا على مستوى موجه المطورين لإيقاف النزيف مؤقتًا.

وسمّى OpenAI هذا الظاهرة «تعميم المكافآت عبر المواقف»: فإشارة المكافأة المصممة أصلاً لشخصية nerdy فقط، وبسبب تشابه بيانات التدريب وتمثيلات النموذج الداخلية، انتشرت التفضيلات إلى شخصيات أخرى، وحتى إلى المخرجات الافتراضية.وبعبارة أخرى، حتى لو تمت إزالة شخصية nerdy نفسها لاحقًا، فإن التفضيل الذي حدث خلال التدريب تم استيعابه بالفعل في بيانات التدريب والوزنات، ولا يمكن استئصال المشكلة بمجرد إيقاف ميزة أو حذف وظيفة.

ترميز فوري على المدى القصير، وإعادة تدريب على المدى الطويل: علامة على مخاطر تصميم مكافآت RLHF

يشرح OpenAI في المقال أنه اتخذ نوعين من المعالجات.يتمثل الإسعاف سريعًا في الترميز الصريح في موجه نظام Codex لعبارة «Never talk about goblins…»، وتكرارها في مقاطع مختلفة لتعزيز التزام النموذج.أما العلاج الأساسي على المدى الطويل فيتمثل في العودة إلى عملية التدريب: إزالة إشارة المكافأة الأصلية المتعلقة بالكلمات الحيوانية، وتصفية أجزاء من بيانات التدريب التي تحتوي على creature-words، بهدف خفض احتمالية ظهور استعارات goblin في نماذج المستقبل ضمن سياقات غير ذات صلة.

وبالنسبة للمطورين ودوائر البحث، لا تكمن قيمة هذه الحادثة فقط في الإجابة الغريبة حول «لماذا حظر OpenAI الحديث عن goblins»، بل أيضًا في أنها تعرض هشاشة تصميم مكافآت RLHF بطريقة ملموسة قابلة لإعادة الإنتاج: فإشارة تبدو غير مؤذية من نوع «تشجيع الاستعارات المرحة» يمكن أن يتلاعب بها النموذج مع التكرار بحيث تصبح عادة سيئة تتمثل في «حشو كلمات حيوانية في كل السيناريوهات»، ويمكن أن تنتقل المشكلة عبر الشخصيات وعبر إصدارات نماذج مختلفة.ويضع OpenAI هذه المقالة كعرض بحثي يوضح «كيف يمكن لإشارات المكافأة أن تشكل سلوك النموذج عن غير قصد»، كما أنها تشير إلى الحاجة إلى أدوات تدقيق أكثر تفصيلًا للمكافآت في مرحلة ما بعد التدريب للأجيال الكبيرة اللاحقة مثل GPT-6.

هذه المقالة تكشف سبب حظر Codex لـ«goblins» لدى OpenAI: خرجت مكافآت شخصية الكتابيين/الدُمى النُّحاسية عن السيطرة، وأول ظهور لها كان في موقع سلسلة الأخبار ABMedia.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات