Perplexity 揭露 Web 搜尋代理後訓練方法;基於 Qwen3.5 的模型在準確率與成本上超越 GPT-5.4

封鎖新聞訊息,4 月 23 日 — Perplexity 的研究團隊發布了一篇技術文章,詳述其用於 Web 搜尋代理的後訓練方法。該方法使用兩個開源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 與 Qwen3.5-397B-A17B),並採用兩階段流程:先進行監督式微調 (SFT) 以建立遵循指令與語言一致性,接著透過線上強化學習 (RL) 以最佳化搜尋準確性與工具使用效率。

RL 階段使用 GRPO 演算法,且有兩種資料來源:一個專有的多跳可驗證問答資料集,係由內部種子查詢構建而成,要求推理 2–4 個跳步,並透過多解算器驗證;以及基於規則量表的通用對話資料,將部署需求轉換為可客觀檢查的原子條件,以防止 SFT 行為退化。

獎勵設計採用閘控聚合——只有在達到基準正確性時((question-answer match))或所有規則量表準則均滿足時,偏好分數才會被計入,以避免高偏好訊號掩蓋事實錯誤。效率懲罰則使用同組錨定,對超出同組中正確答案基準的工具呼叫與生成長度套用平滑懲罰。

評估顯示 Qwen3.5-397B-SFT-RL 在各類搜尋基準上達到業界一流的表現。在 FRAMES 上,單次工具呼叫可達 57.3% 準確率,較 GPT-5.4 高出 5.7 個百分點,並較 Claude Sonnet 4.6 高出 4.7 個百分點。在中等預算 (four tool calls) 下,它以每次查詢 $0.02 達到 73.9% 準確率;相比之下,GPT-5.4 為 67.8%(每次查詢 $0.085),Sonnet 4.6 為 62.4%(每次查詢 $0.153)。成本數據基於各供應商的公開 API 定價,且不包含快取最佳化。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Google 執行長:2026 年資本支出達 1850 億,AI 智能體時代投資加碼

Google 執行長 Sundar Pichai 於 4 月 22 日在拉斯維加斯舉行的 Google Cloud Next 大會上宣布,Google 計劃 2026 年投入 1,750 億至 1,850 億美元資本支出,用於建設自主人工智慧代理(AI Agent)所需的基礎設施,較 2022 年 310 億美元增加。

Market Whisper21分鐘前

Google Jules 開放新版候補名單,重新定位為端到端產品開發平台

根據 Google Jules 團隊官方於 4 月 23 日公告,Jules 的產品定位已從非同步編碼 agent 升級為「端到端 agentic 產品開發平台」,新版本可讀取完整產品上下文、自主判斷下一步建構方向,並提交 PR,官方同步宣布開放新版本候補名單。

Market Whisper27分鐘前

Google Jules 重新品牌為端到端代理式產品開發平台,為新版本開放候補名單

Gate News 訊息,4 月 23 日——Google 的 Jules 團隊宣布為產品新版本開放候補名單,將 Jules 從非同步程式碼代理重新定位為端到端的代理式產品開發平台。根據官方描述,升級後的平台可讀取完整產品情境,判斷接下來應該建立什

GateNews1小時前

OpenAI Codex 團隊修復 OpenClaw 驗證錯誤,顯著改善代理行為

OpenClaw 從 Pi 切換到 Codex harness,以修復靜默驗證回退,並透過兩個 PR 分別解決橋接與回退問題;修復之後,代理程式從淺層心跳輪詢轉向完整的工作迴圈,讓進度得以推進。 摘要:OpenClaw 的 Codex harness 優化處理了一個關鍵的驗證漏洞:當使用 Codex 搭配 OpenAI 模型時,系統會靜默回退到 Pi harness。兩個拉取請求修復驗證橋接並防止靜默回退,進而變更執行階段的介面適配器。結果是,代理程式的行為從淺層心跳輪詢演進為完整的工作迴圈:讀取上下文、分析任務、編輯程式庫並驗證進度,提升跨心跳的連貫性與可見度。

GateNews2小時前

OpenAI 推 ChatGPT Workspace Agents:Codex 驅動、團隊共享、Slack 整合

OpenAI於4月22日在ChatGPT Business/Enterprise/Edu/Teachers推出WorkspaceAgents,由Codex驅動、雲端長時、團隊共用且可離線執行,能在Slack主動回應與開票、執行多步工作流,並支援排程。研究預覽免費到5月6日,之後採credit-based收費,價格待公布。與GoogleGeminiEnterpriseAgentPlatform、AnthropicClaudeCowork同場競爭,三家聚焦企業級代理但定位各有不同。

鏈新聞abmedia3小時前

Google Cloud Next 2026:推出 Gemini 企業代理平台,7.5 億美元助顧問落地

Google Cloud 在 Cloud Next 2026 公布 Gemini Enterprise Agent Platform,整合模型選擇、代理建構、DevOps、編排與企業安全控管,並推出 7.5 億美元基金協助 McKinsey、Accenture、Deloitte 部署企業代理。平台搭配 Ironwood TPU、A2A 與 MCP,打造自家全棧與顧問通路,對抗 OpenAI Operator 與 Anthropic Claude 企業版。

鏈新聞abmedia3小時前
留言
0/400
暫無留言