Perplexity 披露网络搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

封面新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细说明其用于网络搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。

RL 阶段使用 GRPO 算法,来自两类数据源:一是由内部种子查询构建的专有多跳可验证问答数据集,这些查询需要 2–4 跳推理,并采用多解算器验证;二是基于评分标准的通用对话数据,它将部署需求转换为客观可核查的原子条件,以防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时((question-answer match 或所有评分标准要求均满足))偏好分数才会计入,避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度施加平滑惩罚,这些值超过了同一组中正确答案的基线水平。

评估显示,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现了同类最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 的准确率,较 GPT-5.4 高出 5.7 个百分点,较 Claude Sonnet 4.6 高出 4.7 个百分点。在适度预算 (four tool calls) 下,它以每次查询 $0.02 的成本达到 73.9% 准确率;相比之下,GPT-5.4 在每次查询 $0.085 时准确率为 67.8%,Sonnet 4.6 在每次查询 $0.153 时准确率为 62.4%。成本数据基于各提供方公开的 API 定价,并不包含缓存优化。

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

CEO de Google: el gasto de capital de 2026 alcanzará 185 mil millones, y se incrementarán las inversiones en la era de los agentes de IA

El director ejecutivo de Google, Sundar Pichai, anunció en la conferencia Google Cloud Next celebrada el 22 de abril en Las Vegas que Google planea invertir entre 175 mil millones y 185 mil millones de dólares en gasto de capital en 2026 para construir la infraestructura necesaria para sus agentes de inteligencia artificial (AI Agent) autónomos, lo que supone un aumento frente a los 31 mil millones de dólares de 2022.

MarketWhisperHace21m

Google Jules abre la nueva lista de candidatos para la versión, y se reposiciona como una plataforma de desarrollo de productos de extremo a extremo

Según el anuncio oficial del equipo de Google Jules del 23 de abril, el posicionamiento del producto de Jules ha pasado de un agente de codificación asíncrona a una «plataforma de desarrollo de productos agentic de extremo a extremo». La nueva versión puede leer el contexto completo del producto, decidir de forma autónoma la siguiente dirección de construcción y enviar PR. La empresa anunció además la apertura de la lista de candidatos para la nueva versión.

MarketWhisperHace27m

Google Jules se renombra como plataforma de desarrollo de productos agentica de extremo a extremo y abre lista de espera para una nueva versión

Mensaje de Gate News, 23 de abril — El equipo de Jules de Google anunció la apertura de una lista de espera para una nueva versión del producto, reposicionando a Jules de un agente de codificación asíncrono a una plataforma de desarrollo de productos agentica de extremo a extremo. Según la descripción oficial, la plataforma mejorada lee el contexto completo del producto, determina qué debe construirse a continuación, propone soluciones y envía solicitudes de extracción. La versión anterior funcionaba como un agente de codificación asíncrono integrado con GitHub que ejecutaba tareas específicas asignadas por los usuarios y enviaba código en segundo plano. La nueva versión marca un cambio importante: en lugar de limitarse a ejecutar tareas concretas, el agente ahora comprende de forma proactiva el panorama del producto y decide de manera autónoma qué construir.

GateNewshace1h

OpenAI Codex Team Fixes OpenClaw Authentication Bug, Significantly Improves Agent Behavior

OpenClaw switches from Pi to Codex harness to fix a silent authentication fallback, with two PRs addressing the bridge and fallback; post-fix, the agent shifts from shallow heartbeat polling to a full work loop, enabling progress. Abstract: OpenClaw’s Codex harness optimization addressed a critical authentication flaw that caused silent fallback to the Pi harness when using Codex with OpenAI models. Two pull requests fix the authentication bridge and prevent silent fallback, changing the runtime adapter. As a result, agent behavior evolves from shallow heartbeat polling to a full work loop that reads context, analyzes tasks, edits repositories, and verifies progress, improving continuity and visibility across heartbeats.

GateNewshace2h

OpenAI anuncia los ChatGPT Workspace Agents: impulsados por Codex, compartidos por el equipo, integración con Slack

OpenAI lanzó Workspace Agents en ChatGPT Business/Enterprise/Edu/Teachers el 22 de abril, impulsados por Codex, con ejecución en la nube de larga duración, compartidos por equipos y con capacidad de funcionar sin conexión; pueden responder proactivamente en Slack y emitir tickets, ejecutar flujos de trabajo de múltiples pasos y también admitir la programación. La vista previa de investigación es gratuita hasta el 6 de mayo; después, se cobrará mediante una tarifa basada en créditos, y los precios se darán a conocer. Compiten en el mismo escenario que el GoogleGeminiEnterpriseAgentPlatform y AnthropicClaudeCowork; las tres se centran en agentes a nivel empresarial, pero su posicionamiento es distinto.

ChainNewsAbmediahace3h

Google Cloud Next 2026: lanza la plataforma de agentes empresariales Gemini, 750 millones de dólares para ayudar a los consultores a implementarlo

Google Cloud anunció en Cloud Next 2026 la plataforma Gemini Enterprise Agent Platform, que integra selección de modelos, construcción de agentes, DevOps, orquestación y controles de seguridad para empresas, y lanzó un fondo de 750 millones de dólares para ayudar a McKinsey, Accenture y Deloitte a implementar agentes empresariales. La plataforma, junto con Ironwood TPU, A2A y MCP, construye su propio stack completo y una vía de acceso para consultores, para hacer frente a OpenAI Operator y a la versión empresarial de Anthropic Claude.

ChainNewsAbmediahace3h
Comentar
0/400
Sin comentarios