اختبار معركة “البقاء للأخير” لنماذج LLM من OpenRouter: Grok 4.1 Fast يحرز اللقب بـ13 انتصارًا

OpenRouter LLM大逃殺實測

في 4 يونيو، وضع جاكي ليان، مدير علاقات المطورين في OpenRouter، 11 من نماذج اللغات الكبيرة الرئيسية ضمن خريطة خريطة “البقاء للأخير” بمساحة 400 متر مربع صمّمها باستخدام Canvas 2D، لإجراء 30 مباراة اختبارية. وخلصت النتائج إلى أن Grok 4.1 Fast من xAI حاز الصدارة بـ 13 انتصارًا، وبكلفة قدرها 0.97 دولار فقط لكل فوز.

Grok 4.1 Fast يفوز بـ 13 انتصارًا وبنسبة فوز 43%، بتكلفة 0.97 دولار لكل فوز

OpenRouter LLM大逃殺 (来源:OpenRouter 博客)

استنادًا إلى بيانات تجربة ليان، تأتي الترتيبات كاملة كما يلي (جزئيًا):

Grok 4.1 Fast: 13 فوزًا (نسبة الفوز 43%)، بتكلفة 0.97 دولار لكل فوز

Claude Sonnet 4.6: 5 فوزات، بتكلفة 26.78 دولار لكل فوز

GPT 5.4: فوزان (38 قتلًا)، بتكلفة 61.44 دولار لكل فوز (8 نماذج ذات انتصارات هي الأعلى)

GPT 5.4-mini: 0 فوز، بتكلفة 28.68 دولار

Kimi K2.6: 0 فوز، بتكلفة 24.36 دولار

DeepSeek v4 Flash: 0 فوز، بتكلفة 4.11 دولارات؛ أقل تكلفة قتل (0.26 دولار)، بواقع 16 قتلًا، لكنه لم يفز أبدًا بالحلقة الأخيرة

أشار ليان إلى أن لكل نموذج ملفين قابلين للتعديل: soul.md (إعدادات الشخصية) وmemory.md (ملاحظات تكتيكية)، ما يسمح له بالتعلم وتعديل الاستراتيجيات بين الجولات؛ ويشارك النموذجون بأسماء مجهولة من الحرف A إلى L، دون معرفة هوية الخصوم.

مفهوم “ضريبة المحاذاة” الذي طرحه ليان: ثمن سلوك التعاون لدى Claude Sonnet 4.6 في لعبة محصلتها صفر

طرح ليان في تقريره مفهوم “ضريبة المحاذاة (alignment tax)”، ويقصد به أن النموذج يُدرّب أثناء عملية التعلم على التحلي باللطف والتعاون وتجنب إلحاق الضرر، غير أن هذه العادات تنقلب عبئًا في ألعاب محصلتها صفر.

يُعدّ Claude Sonnet 4.6 المثال الأوضح: في اللعبة 8، اقترح التحالف أربع مرات خلال أول 50 دورة، وأخبر الجميع بمواقع القناصين؛ وفي اللعبة 22، قال للخصم “لن أستهدفك” ثم لم يطلق النار؛ وفي اللعبة 27، نادى عارياً “هل لدى أحدكم ذخيرة احتياطية؟ أنا في الدورة 12 ولا أحمل شيئًا”. لم يرد أي نموذج على طلبه بالتعاون، ومع ذلك حاول Claude مرارًا. والنتيجة كانت 7 حالات قتل صفرية و8 مرات مات بسبب منطقة السم.

في المقابل، لم تظهر لدى Grok هذه “المكابح” خلال المباريات؛ فخلال عدة جولات اكتشف تكتيك الاصطدام بالمركبات، ثم دوّن ذلك في soul.md لتحسينه باستمرار، لينفذ الخطة حتى النهاية في جميع الجولات الـ 30.

منهجية ليان وحدودها: نوع المهمة يحدد أفضل نموذج

شدّد ليان في تقريره على أن ذلك لا يعني أن Grok هو “النموذج الأفضل” بالمعنى المطلق: “إذا كانت الروبوتات تركض نحوك، هل تفضّل أن يكون Claude أم Grok؟ هذا يتوقف على استخدام الروبوت.” كما أشار إلى أنه إذا تم تغيير نظام المنافسة إلى وضع القتال حتى الموت (الاعتماد فقط على عدد القتلات)، فسيكون GPT 5.4 هو الفائز، بينما سيتراجع Grok إلى منتصف الترتيب.

تعريفات المهام المختلفة ضمن عالم اللعبة ذاته تُفضي إلى نتائج مختلفة تمامًا، وهذه هي إحدى قيود اختبارات المعيار المتاحة. كشف ليان كذلك أن OpenRouter تعمل على تطوير ميزات أكثر تقدمًا لتوجيه المهام، بحيث يختار النظام تلقائيًا النموذج الأنسب وفقًا لسياق المهمة المحدد، بدلًا من الاعتماد على ترتيب النماذج في قوائم الأداء.

الأسئلة الشائعة

ما المقصود تحديدًا بمفهوم “ضريبة المحاذاة” لدى ليان؟

وفقًا لتقرير ليان، تشير “ضريبة المحاذاة (alignment tax)” إلى الكلفة التي يدفعها LLM أثناء التدريب لإظهار اللطف والتعاون وتجنب الضرر. تُعد هذه الممارسات ميزة في البيئات التعاونية، لكن في ألعاب محصلتها صفر (مثل ألعاب البقاء) فإن هذا النهج الحذر “اسأل أولاً ثم هاجم” قد يؤدي إلى تفويت النموذج لفرص الهجوم، ثم القضاء عليه من خصم أكثر اندفاعًا. يستخدم ليان السجلّات السلوكية الفعلية لدى Claude لتوضيح هذا المفهوم.

لماذا سجّل GPT 5.4 أعلى عدد من القتلات لكن أقل عدد من مرات الفوز؟

استنادًا إلى بيانات تجارب ليان، تصدّر GPT 5.4 ترتيب القتلات بـ 38 قتلًا في عموم الجولة، لكنه لم يحقق سوى فوزين فقط، بتكلفة 61.44 دولار لكل فوز (الأعلى بين 8 نماذج حققت انتصارات). ويشير ليان إلى أن ذلك يعكس مشكلة “Kill لا يساوي Win”: نظام الفوز في لعبة البقاء يعتمد على البقاء حتى النهاية، لا على تحقيق أكبر عدد من القتلات. وإذا تم استخدام وضع قتال حتى الموت يحسب القتلات فقط، فسيكون GPT 5.4 هو الفائز، بينما سينزل Grok إلى منتصف الترتيب.

كيف تم تحديد تكلفة التجربة واختيار النماذج؟

قال ليان إن إجمالي تكلفة الاستدلال لتجربة الجولات الـ 30 بلغ 482 دولارًا. ومن خلال ذلك، قدّر أنه إذا أُضيفت نماذج رائدة مثل Opus 4.7 أو GPT-5.5 أو Gemini Ultra، فإن تكلفة 30 جولة ستبلغ نحو 3,000 دولار تقريبًا، لذلك قصر المشاركين على نماذج من فئة متوسطة إلى متقدمة. وتم ضبط التجربة بحيث يشارك كل نموذج بأسماء مجهولة بحروف، دون معرفة هوية الخصوم، ولم يتدخل ليان بصفته مقدمًا في أي تصرف.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات