لماذا عندما يستخدم منتجان مختلفان من منتجات GPT-4 أو Claude، تكون نتائج الذكاء الاصطناعي مختلفة جدًا؟ طرح مطوّر الذكاء الاصطناعي Akshay Pachaar على X إطارًا يُسمّى «Agent Harness Engineering»، مستخدمًا تشبيهًا دقيقًا يوضح الصورة: إن LLM المكشوف يشبه وحدة CPU بلا نظام تشغيل—والذي يحدد حقًا أداء منتج الذكاء الاصطناعي ليس النموذج الأساسي نفسه، بل حلقة الجدولة المبنية حوله، وتكامل الأدوات، وبنية إدارة الذاكرة.
تحتاج وحدة CPU إلى نظام تشغيل، وLLM إلى Agent Harness
أنشأ Pachaar مجموعة كاملة من المقارنات القياسية: LLM هو CPU، وContext Window هو RAM، وVector DB هو القرص الصلب، وTools هي برامج تشغيل الأجهزة (drivers)، وAgent Harness هو نظام التشغيل. يفسر هذا الإطار ظاهرة لوحظت على نطاق واسع في الصناعة—ففي قائمة LangChain TerminalBench، يمكن أن تكون فروق الأداء بين منتجات مختلفة تستخدم النموذج الأساسي نفسه هائلة جدًا.
تتمثل الرؤية الأساسية في أن: قدرات النموذج شرطٌ ضروري، لكن جودة هندسة الـ harness هي الشرط الكافي. يمكن لـ Agent Harness مصمّم بشكل متقن أن يجعل نموذجًا متوسط المستوى يتفوق على منافس يركّب نموذجًا فائق المستوى لكن harness لديه رديء.
الأربعة مكونات الأساسية لـ Agent Harness
وفقًا لإطار Pachaar، يتضمن Agent Harness المتكامل أربعة جوانب رئيسية. أولها منطق الجدولة (Scheduling Loop)، الذي يحدد متى ينبغي للوكيل (agent) أن يفكر، ومتى يتصرف، ومتى يستدعي الأدوات؛ ثانيها منظومة الأدوات (Tool Ecosystem)، التي تحدد الأنظمة الخارجية التي يمكن للوكيل التعامل معها؛ ثالثها إدارة الذاكرة (Memory Management)، التي تتعامل مع ذاكرة المحادثة قصيرة الأجل واسترجاع المعرفة طويلة الأجل؛ وأخيرًا إدارة السياق (Context Management)، التي تحدد ما الذي يجب إدخاله ضمن نافذة السياق المحدودة (context window).
إن المفاضلات في تصميم هذه المكونات الأربعة هي التي تحدد نمط السلوك المختلف جذريًا لنفس النموذج عبر منتجات مختلفة. ولهذا السبب بالذات تختلف تجربة المستخدم بين ChatGPT من OpenAI وClaude من Anthropic، وكذلك بين مختلف منتجات الذكاء الاصطناعي التابعة لجهات ثالثة: حتى عندما تكون قدرات النموذج الأساسي متقاربة، فإن تجربة الاستخدام تكون مختلفة تمامًا.
الاعتراض: هل يمكن لنموذج قوي بما يكفي أن يضمّن وظائف الـ Harness؟
يواجه هذا الإطار تحديات أيضًا. يرى بعض الباحثين أنه مع استمرار تطور نماذج الأساس—وخاصةً مع القفزات التطورية في قدرات الاستدلال—قد يتمكن النموذج القوي في النهاية من استيعاب معظم وظائف الـ harness، تمامًا كما قامت وحدات CPU الحديثة تدريجيًا بدمج وظائف كانت تتطلب شرائح منفصلة في الماضي. وإذا تحقق هذا الاتجاه، فقد تنخفض أهمية هندسة الـ harness مع مرور الوقت.
ومع ذلك، ومن منظور الممارسة الحالية، حتى أقوى النماذج ما زالت تعتمد بدرجة كبيرة على الأدوات الخارجية وعلى منطق الجدولة المصمم بعناية. وفي المستقبل القريب الذي يمكن رؤيته، سيظل الـ harness engineering ساحة المعركة الرئيسية لتحقيق تمايز منتجات الذكاء الاصطناعي.
الدروس المستفادة لتطوير منتجات الذكاء الاصطناعي
يوفر إطار Pachaar زاوية تحليل أدق لتقييم منتجات الذكاء الاصطناعي والإبلاغ عنها: بدلًا من الاكتفاء بمقارنة «أي نموذج تم استخدامه»، ينبغي الغوص في قرارات الهندسة على مستوى الـ harness مثل بنية الجدولة، ومنظومة الأدوات، وآليات الذاكرة. وبالنسبة لفِرق التطوير التايوانية التي تعمل على بناء منتجات ذكاء اصطناعي، فهذا يعني أنه بعد اختيار نموذج الأساس، تبدأ المنافسة الحقيقية للتو—وإن جودة هندسة الـ harness هي التي تحدد مفتاح نجاح المنتج أو فشله.
هذه المقالة Agent Harness هي المفتاح: لماذا تختلف بشكل كبير جدًا نتائج نفس نموذج الذكاء الاصطناعي بين منتجات مختلفة ظهرت أولًا على أخبار Lian ABMedia.