Perplexity 揭示网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本方面优于 GPT-5.4

发布新闻消息,4 月 23 日——Perplexity 的研究团队发表了一篇技术文章,详细介绍其面向网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。

RL 阶段使用 GRPO 算法并结合两种数据源:一种专有的多跳可验证问答数据集,由内部种子查询构建而成,这些查询需要 2–4 跳推理,并通过多解算器验证;以及基于评分细则的通用对话数据,它将部署需求转换为客观可核查的原子条件,从而防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入,即 (question-answer match 或所有评分细则条件都满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度超过同组中正确答案基线的部分施加平滑惩罚。

评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同类最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 的准确率,较 GPT-5.4 提高 5.7 个百分点,较 Claude Sonnet 4.6 提高 4.7 个百分点。在中等预算 (four tool calls) 下,它以每次查询 $0.02 的成本实现 73.9% 的准确率;相比之下,GPT-5.4 在每次查询 $0.085 下准确率为 67.8%,Sonnet 4.6 在每次查询 $0.153 下准确率为 62.4%。成本数据基于各提供方的公开 API 定价,并排除缓存优化。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

الرئيس التنفيذي لشركة Google: ستصل النفقات الرأسمالية لعام 2026 إلى 185 مليار دولار، مع زيادة الاستثمار في عصر الوكلاء الذكاء الاصطناعي

أعلن الرئيس التنفيذي لشركة Google، سوندار بيتشاي، في 22 أبريل خلال مؤتمر Google Cloud Next الذي عُقد في لاس فيغاس، أن شركة Google تخطط للاستثمار بين 175 ملياراً و185 مليار دولار كإنفاق رأسمالي في عام 2026، وذلك لبناء البنية التحتية اللازمة لوكلاء الذكاء الاصطناعي المستقلين (AI Agent)، بزيادة مقارنة بعام 2022 عندما بلغ الإنفاق 31 مليار دولار.

MarketWhisperمنذ 21 د

يعلن Google Jules عن قائمة المرشحين للإصدار الجديد المفتوح، مع إعادة تموضعها كمنصة لتطوير المنتجات من طرف إلى طرف

وفقًا لإعلان فريق Google Jules الرسمي بتاريخ 23 أبريل، تمت ترقية تحديد موقع منتج Jules من وكيل للترميز غير المتزامن إلى «منصة تطوير منتجات وكيلية من طرف إلى طرف»، ويمكن للإصدار الجديد قراءة السياق الكامل للمنتج واتخاذ قرار مستقل بشأن اتجاه الخطوة التالية للبناء، ثم تقديم طلب PR. وفي الوقت نفسه، أعلنت الجهة الرسمية عن فتح قائمة المرشحين لإصدار جديد.

MarketWhisperمنذ 27 د

Google Jules يعيد العلامة التجارية باعتباره منصة تطوير منتجات ذاتية شاملة من البداية إلى النهاية، ويفتح قائمة انتظار لإصدار جديد

رسالة أخبار بوابة، 23 أبريل — أعلنت فرق Jules التابعة لشركة Google عن فتح قائمة انتظار لإصدار جديد من المنتج، مع إعادة تموضع Jules من كونه وكيل برمجة غير متزامن إلى منصة لتطوير منتجات ذاتية شاملة من البداية إلى النهاية. ووفقًا للوصف الرسمي، تقرأ المنصة المُحسّنة سياق المنتج الكامل، وتحدد ما ينبغي بناؤه بعد ذلك، وتقترح الحلول، وترسل طلبات الدمج إلى المستودع. ا

GateNewsمنذ 1 س

فريق OpenAI Codex يصلح خطأ مصادقة OpenClaw ويحسّن بشكل كبير سلوك الوكيل

تبدّل OpenClaw من حاضنات Pi إلى حاضنات Codex لإصلاح تراجع مصادقة صامت، مع وجود طلبَي سحب يعالجان الجسر والتراجع؛ بعد الإصلاح، ينتقل الوكيل من الاستقصاء السطحي لنبضات القلب إلى حلقة عمل كاملة، مما يتيح التقدّم. ملخص: عالجت تحسينات حاضنة Codex لدى OpenClaw خللاً حرجًا في المصادقة تسبب في تراجع صامت إلى حاضنة Pi عند استخدام Codex مع نماذج OpenAI. تُصلح طلبتا سحب عملية الجسر الخاص بالمصادقة وتمنع التراجع الصامت، وتغيّر محوّل وقت التشغيل. ونتيجة لذلك، تتطور سلوكيات الوكيل من الاستقصاء السطحي لنبضات القلب إلى حلقة عمل كاملة تقرأ السياق، وتُحلّل المهام، وتُعدّل المستودعات، وتتحقق من التقدّم، مما يحسّن الاستمرارية والرؤية عبر نبضات القلب.

GateNewsمنذ 2 س

وكلاء مساحة عمل ChatGPT من OpenAI: مدعوم بـ Codex، مشاركة الفريق، تكامل Slack

أطلقت OpenAI في 22 أبريل "Workspace Agents" على ChatGPT Business/Enterprise/Edu/Teachers، مدعومًا بـ Codex، يعمل باستمرار على السحابة، ويُتاح للمشاركة بين الفرق ويمكن تشغيله دون اتصال بالإنترنت. يمكنه الرد بشكل استباقي داخل Slack وتنفيذ مهام متعددة الخطوات وإصدار الفواتير، كما يدعم جدولة المهام. يتوفر البحث المبدئي مجانًا حتى 6 مايو، وبعد ذلك سيتم تطبيق رسوم على أساس الائتمانات (credit-based)، والسعر سيُعلن لاحقًا. ينافس هذا جنبًا إلى جنب مع GoogleGeminiEnterpriseAgentPlatform وAnthropicClaudeCowork، حيث تركز الشركات الثلاث على وكلاء بمستوى المؤسسات لكن مع اختلافات في التموضع.

ChainNewsAbmediaمنذ 3 س

Google Cloud Next 2026: إطلاق منصة وكلاء Gemini للمؤسسات، 750 مليون دولار لدعم المستشارين في التنفيذ على أرض الواقع

أعلنت Google Cloud عن منصة Gemini Enterprise Agent Platform ضمن حدث Cloud Next 2026، مع دمج اختيار النماذج، وبناء الوكلاء، وDevOps، والتنسيق، وضوابط الأمان المؤسسية، كما طرحت صندوقًا بقيمة 750 مليون دولار لدعم McKinsey وAccenture وDeloitte في نشر الوكلاء المؤسسيين. وتأتي المنصة مقترنة بـ Ironwood TPU وA2A وMCP، لبناء مسار تقني كامل خاص بها وقنوات للمشاورات، لمواجهة OpenAI Operator وAnthropic Claude الإصدار المؤسسي.

ChainNewsAbmediaمنذ 3 س
تعليق
0/400
لا توجد تعليقات