Perplexity 公开 Web 搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

拦截新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍了其用于 Web 搜索代理的后训练方法。该方案使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,再进行在线强化学习 (RL) 以优化搜索准确性和工具使用效率。

强化学习阶段采用 GRPO 算法,包含两个数据来源:一个专有的多跳可验证问答数据集,该数据集由内部种子查询构建,要求进行 2–4 步推理,并通过多求解器进行验证;以及基于评分准则的通用对话数据,将部署需求转换为客观可检验的原子条件,以防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入 (question-answer 匹配或所有评分准则均满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度超过同组中正确答案基线的部分施加平滑惩罚。

评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同级最优表现。在 FRAMES 上,它在单次工具调用下达到 57.3% 的准确率,较 GPT-5.4 提高 5.7 个百分点,较 Claude Sonnet 4.6 提高 4.7 个百分点。在中等预算 (四次工具调用) 下,其准确率达到 73.9%,成本为每次查询 $0.02;相比之下,GPT-5.4 的准确率为 67.8%,每次查询 $0.085,Sonnet 4.6 的准确率为 62.4%,每次查询 $0.153。费用数据基于各提供方的公开 API 定价,并不包含缓存优化。

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Генеральный директор Google: Капитальные затраты в 2026 году составят 185 млрд, инвестиции в эпоху ИИ-агентов будут увеличены

Генеральный директор Google Сундар Пичаи объявил 22 апреля на конференции Google Cloud Next в Лас-Вегасе, что Google планирует в 2026 году направить от 1750 до 1850 миллиардов долларов капитальных затрат на строительство инфраструктуры, необходимой для автономных агентных ИИ (AI Agent), что больше, чем в 2022 году — 31 миллиард долларов.

MarketWhisper21м назад

Google Юльс публикует список кандидатов на открытую версию и повторно позиционируется как платформа для разработки продуктов end-to-end

Согласно официальному объявлению команды Google Jules от 23 апреля, позиционирование продукта Jules было обновлено: с «асинхронного кодирующего агента» до «сквозной (end-to-end) агентской платформы разработки продуктов». Новая версия умеет считывать полный контекст продукта, самостоятельно определять дальнейшее направление построения и отправлять PR. Официально также объявлено об открытии списка кандидатов на новую версию.

MarketWhisper27м назад

Google Jules переименовывает себя в платформу сквозной агентной разработки продуктов и открывает список ожидания для новой версии

Сообщение Gate News, 23 апреля — команда Jules в Google объявила об открытии списка ожидания для новой версии продукта, позиционируя Jules с асинхронного агента по написанию кода на платформу сквозной агентной разработки продуктов. Согласно официальному описанию, обновленная платформа считывает полный контекст продукта, определяет, что нужно построить дальше, предлагает решения и отправляет pull-запросы. Предыдущая версия работала как асинхронный агент по написанию кода, интегрированный с GitHub: он выполнял конкретные задачи, назначенные пользователями, и отправлял код в фоновом режиме. Новая версия знаменует собой существенный сдвиг: вместо того чтобы просто выполнять заданные задачи, агент теперь проактивно понимает ландшафт продукта и автономно решает, что следует построить.

GateNews1ч назад

Команда OpenAI Codex исправила баг аутентификации OpenClaw и существенно улучшила поведение агента

OpenClaw переключает связку Pi на связку Codex, чтобы исправить скрытый резервный сценарий аутентификации, при этом две PR-правки устраняют проблему моста и резервного сценария; после исправления агент переходит от поверхностного опроса по сердцебиению к полному рабочему циклу, что позволяет достигать прогресса. Аннотация: Оптимизация связки Codex в OpenClaw устранила критическую уязвимость аутентификации, из-за которой при использовании Codex с моделями OpenAI происходил скрытый откат на связку Pi. Два pull request исправляют мост аутентификации и предотвращают скрытый резервный сценарий, меняя адаптер среды выполнения. В результате поведение агента развивается от поверхностного опроса по сердцебиению к полному рабочему циклу: он читает контекст, анализирует задачи, редактирует репозитории и проверяет прогресс, повышая непрерывность и видимость между сердцебиениями.

GateNews2ч назад

Открывайте ChatGPT Workspace Agents от OpenAI: с драйвером Codex, общими ресурсами для команды и интеграцией с Slack

OpenAI 22 апреля запустила Workspace Agents в ChatGPT Business/Enterprise/Edu/Teachers: они работают на базе Codex, рассчитаны на длительную работу в облаке, поддерживают совместное использование в команде и могут выполняться офлайн. Они способны проактивно отвечать в Slack, а также выставлять счета, выполнять многошаговые рабочие процессы и поддерживают планирование. Исследовательский превью доступно бесплатно до 6 мая, после чего будет применяться кредитно-ориентированная модель оплаты; цены будут объявлены позже. Они конкурируют наравне с GoogleGeminiEnterpriseAgentPlatform и AnthropicClaudeCowork: три компании нацелены на корпоративных агентов, но их позиционирование различается.

ChainNewsAbmedia3ч назад

Google Cloud Next 2026: запускает платформу корпоративных агентств Gemini, 750 миллионов долларов помогут консультантам внедрить решения

Google Cloud на Cloud Next 2026 объявила платформу Gemini Enterprise Agent Platform, которая объединяет выбор моделей, построение агентов, DevOps, оркестрацию и корпоративный контроль безопасности, а также запускает фонд в размере 750 миллионов долларов США, чтобы помочь McKinsey, Accenture и Deloitte развернуть корпоративных агентов. Платформа в сочетании с Ironwood TPU, A2A и MCP, создает собственный full-stack и консультантские каналы, чтобы противостоять OpenAI Operator и Anthropic Claude в корпоративной версии.

ChainNewsAbmedia3ч назад
комментарий
0/400
Нет комментариев