Perplexity 揭示网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确性与成本上优于 GPT-5.4

推送新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍其用于网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。

RL 阶段采用 GRPO 算法,并使用两种数据来源:其自有的多跳可验证问答数据集——由内部种子查询构建,要求进行 2–4 跳的推理,并通过多求解器验证;以及基于评分标准的通用对话数据——将部署需求转化为客观可检查的原子条件,以防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时((question-answer match 或所有评分标准条件均满足)),偏好分数才会生效,从而避免高偏好信号掩盖事实错误。效率惩罚采用组内锚定:对工具调用以及生成长度中超过同组正确答案基线的部分施加平滑惩罚。

评估显示,Qwen3.5-397B-SFT-RL 在各类搜索基准上实现同类最佳表现。在 FRAMES 上,单次工具调用的准确率为 57.3%,比 GPT-5.4 高 5.7 个百分点,比 Claude Sonnet 4.6 高 4.7 个百分点。在适度预算 (四次工具调用) 下,它以每次查询 $0.02 实现 73.9% 的准确率;相比之下,GPT-5.4 为 67.8%(每次查询 $0.085),Sonnet 4.6 为 62.4%(每次查询 $0.153)。成本数据基于各提供方的公开 API 定价,并不包含缓存优化。

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

CEO Google: Belanja modal pada tahun 2026 mencapai 185 miliar, investasi ditingkatkan di era agen AI

CEO Google Sundar Pichai mengumumkan pada 22 April di acara konferensi Google Cloud Next yang diadakan di Las Vegas bahwa Google berencana mengucurkan belanja modal (capital expenditure) sebesar 175 miliar hingga 185 miliar dolar AS pada tahun 2026 untuk membangun infrastruktur yang diperlukan bagi agen AI (AI Agent) otonom, meningkat dari 31 miliar dolar AS pada tahun 2022.

MarketWhisper21menit yang lalu

Google Jules membuka daftar kandidat versi baru, dan mengarahkannya kembali sebagai platform pengembangan produk end-to-end

Berdasarkan pengumuman resmi Tim Google Jules pada 23 April, posisi produk Jules telah ditingkatkan dari agent pengkodean asinkron menjadi “platform pengembangan produk agentik end-to-end”; versi baru dapat membaca konteks produk secara lengkap, menilai langkah berikutnya secara mandiri, serta mengirimkan PR. Pihak resmi juga mengumumkan pembukaan daftar kandidat untuk versi baru secara bersamaan.

MarketWhisper27menit yang lalu

Google Jules Rebranding Menjadi Platform Pengembangan Produk Agentik End-to-End, Membuka Daftar Tunggu untuk Versi Baru

Gate News pesan, 23 April — Tim Jules dari Google mengumumkan pembukaan daftar tunggu untuk versi baru produk tersebut, mengubah posisi Jules dari agen pengkodean asinkron menjadi platform pengembangan produk agentik end-to-end. Menurut deskripsi resmi, platform yang ditingkatkan membaca enti

GateNews1jam yang lalu

OpenAI Codex团队修复OpenClaw身份验证故障,显著改善智能体行为

OpenClaw从Pi切换到Codex harness,以修复静默的身份验证回退问题,并通过两份PR分别解决桥接与回退;修复后,智能体从浅层心跳轮询转向完整的工作循环,从而实现进展。 摘要:OpenClaw的Codex harness优化解决了一个关键的身份验证缺陷:当使用OpenAI模型与Codex时,系统会静默回退到Pi harness。两份拉取请求修复了身份验证桥接,并防止静默回退,进而更改运行时适配器。结果,智能体的行为从浅层心跳轮询演变为完整的工作循环:读取上下文、分析任务、编辑仓库并验证进展,从而在心跳之间提升连续性与可见性。

GateNews2jam yang lalu

OpenAI 推 ChatGPT Workspace Agents: Codex 驅动, 团队共享, Slack 整合

OpenAI pada 22 April meluncurkan Workspace Agents di ChatGPT Business/Enterprise/Edu/Teachers, didukung oleh Codex, dengan pemrosesan cloud jangka panjang, digunakan bersama oleh tim, serta dapat dijalankan secara luring. Ia dapat memberikan respons secara proaktif di Slack dan pembuatan tiket, menjalankan alur kerja multi-langkah, serta mendukung penjadwalan. Pratinjau riset gratis hingga 6 Mei, setelah itu menggunakan penetapan biaya berbasis credit, dengan harga yang akan diumumkan. Berkompetisi bersama platform GoogleGeminiEnterpriseAgentPlatform dan AnthropicClaudeCowork, ketiganya menargetkan agen tingkat perusahaan namun dengan penetapan yang berbeda.

ChainNewsAbmedia3jam yang lalu

Google Cloud Next 2026: Meluncurkan platform agen perusahaan Gemini, $750 juta membantu konsultan untuk mewujudkan penerapan

Google Cloud mengumumkan Platform Gemini Enterprise Agent di Cloud Next 2026, mengintegrasikan pemilihan model, pembuatan agen, DevOps, orkestrasi, dan kontrol keamanan perusahaan, serta meluncurkan dana sebesar 750 juta dolar AS untuk membantu McKinsey, Accenture, dan Deloitte menerapkan agen perusahaan. Platform ini dipadukan dengan Ironwood TPU, A2A, dan MCP, membangun tumpukan lengkap serta jalur akses konsultan mereka sendiri, untuk melawan OpenAI Operator dan Anthropic Claude versi perusahaan.

ChainNewsAbmedia3jam yang lalu
Komentar
0/400
Tidak ada komentar