A Perplexity revela método de pós-treinamento de agente de busca na web; modelo baseado em Qwen3.5 supera GPT-5.4 em acurácia e custo

Noticiário da Gate, 23 de abril — A equipe de pesquisa da Perplexity publicou um artigo técnico detalhando sua metodologia de pós-treinamento para agentes de busca na web. A abordagem usa dois modelos Qwen3.5 de código aberto (Qwen3.5-122B-A10B e Qwen3.5-397B-A17B) e emprega um pipeline em duas etapas: fine-tuning supervisionado (SFT) para estabelecer aderência a instruções e consistência de linguagem, seguido de aprendizado por reforço online (RL) para otimizar a acurácia da busca e a eficiência do uso de ferramentas.

A fase de RL aproveita o algoritmo GRPO com duas fontes de dados: um conjunto de dados proprietário de perguntas e respostas verificáveis multi-hop construído a partir de consultas iniciais internas que exigem 2–4 saltos de raciocínio com verificação por múltiplos resolvedores, e dados gerais de conversação baseados em rubricas que convertem requisitos de implantação em condições atômicas objetivamente verificáveis para evitar degradação do comportamento do SFT.

O desenho de recompensa emprega agregação filtrada — as pontuações de preferência só contribuem quando a correção do baseline é alcançada (correspondência pergunta-resposta ou quando todos os critérios da rubrica forem atendidos), impedindo que sinais de alta preferência mascarem erros factuais. As penalidades de eficiência usam ancoragem dentro do grupo, aplicando penalidades suaves às chamadas de ferramenta e ao comprimento de geração que excede o baseline de respostas corretas no mesmo grupo.

A avaliação mostra que o Qwen3.5-397B-SFT-RL alcança desempenho de nível superior em benchmarks de busca. Em FRAMES, atinge 57,3% de acurácia com uma única chamada de ferramenta, superando GPT-5.4 em 5,7 pontos percentuais e Claude Sonnet 4.6 em 4,7 pontos percentuais. Com orçamento moderado (quatro chamadas de ferramentas), obtém 73,9% de acurácia a US$ 0,02 por consulta, em comparação com 67,8% de acurácia do GPT-5.4 a US$ 0,085 por consulta e 62,4% de acurácia do Sonnet 4.6 a US$ 0,153 por consulta. Os valores de custo são baseados na precificação pública de API de cada provedor e excluem otimizações de caching.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

CEO do Google: Capex de 2026 chega a US$ 185 bilhões, aumento de investimentos na era dos agentes de IA

O CEO do Google, Sundar Pichai, anunciou em 22 de abril, durante a conferência Google Cloud Next em Las Vegas, que o Google planeja investir de US$ 175 bilhões a US$ 185 bilhões em gastos de capital em 2026, para construir a infraestrutura necessária para agentes de IA (AI Agent) autônomos, um aumento em relação aos US$ 31 bilhões em 2022.

MarketWhisper21m atrás

O Google Jules divulga uma lista de possíveis nomes do novo lançamento aberto e a reposiciona como uma plataforma de desenvolvimento de produtos ponta a ponta

De acordo com um anúncio oficial da equipe do Google Jules em 23 de abril, o posicionamento do produto da Jules foi atualizado de um agente de codificação assíncrona para uma “plataforma de desenvolvimento de produtos agentic ponta a ponta”. A nova versão consegue ler todo o contexto do produto, determinar de forma autônoma a próxima direção de construção e enviar PR. A empresa também anunciou, em simultâneo, a abertura de uma lista de candidatos para a nova versão.

MarketWhisper27m atrás

Google Jules é rebrandada como plataforma de desenvolvimento de produtos agentic ponta a ponta e abre lista de espera para nova versão

Mensagem da Gate News, 23 de abril — A equipe da Jules, do Google, anunciou a abertura de uma lista de espera para uma nova versão do produto, reposicionando a Jules de uma agente de codificação assíncrona para uma plataforma de desenvolvimento de produtos agentic ponta a ponta. De acordo com a descrição oficial, a plataforma aprimorada lê o contexto completo do produto

GateNews1h atrás

Equipe da OpenAI Codex Corrige Bug de Autenticação da OpenClaw e Melhora Significativamente o Comportamento do Agente

OpenClaw muda de um harness de Pi para um harness de Codex para corrigir uma falha silenciosa de autenticação, com dois PRs tratando a ponte e o fallback; após o ajuste, o agente deixa de fazer polling superficial de heartbeat e passa a um ciclo completo de trabalho, permitindo avanço. Resumo: a otimização do harness Codex da OpenClaw abordou uma falha crítica de autenticação que fazia o sistema voltar silenciosamente ao harness de Pi quando o Codex era usado com modelos da OpenAI. Dois pull requests corrigem a ponte de autenticação e impedem o fallback silencioso, alterando o adaptador de runtime. Como resultado, o comportamento do agente evolui de polling superficial de heartbeat para um ciclo completo de trabalho que lê o contexto, analisa tarefas, edita repositórios e verifica o progresso, melhorando a continuidade e a visibilidade entre heartbeats.

GateNews2h atrás

Agentes do ChatGPT Workspace da OpenAI: movidos por Codex, compartilhamento em equipe, integração com o Slack

A OpenAI lançou o Workspace Agents no ChatGPT Business/Enterprise/Edu/Teachers em 22 de abril, impulsionados pelo Codex, com execução em nuvem por longos períodos, compartilhamento em equipe e capacidade de funcionar offline. Eles conseguem responder proativamente no Slack e criar faturas, executar fluxos de trabalho com várias etapas e também oferecer suporte a agendamento. A prévia de pesquisa é gratuita até 6 de maio; depois, será cobrada com base em créditos, com preços a serem divulgados. Eles competem lado a lado com o GoogleGeminiEnterpriseAgentPlatform e o AnthropicClaudeCowork, com as três empresas focando em agentes de nível empresarial, mas com posicionamentos diferentes.

ChainNewsAbmedia3h atrás

Google Cloud Next 2026: lança a plataforma de agentes corporativos Gemini, US$ 750 milhões para ajudar consultorias a colocar soluções em prática

O Google Cloud anunciou na Cloud Next 2026 a plataforma Gemini Enterprise Agent, integrando seleção de modelos, construção de agentes, DevOps, orquestração e controle de segurança corporativa, e lançou um fundo de 750 milhões de dólares para ajudar a McKinsey, Accenture e Deloitte a implantar agentes empresariais. A plataforma, junto com o Ironwood TPU, A2A e MCP, cria um ecossistema completo de ponta a ponta e um canal de consultoria próprio, para enfrentar o OpenAI Operator e o Anthropic Claude na versão empresarial.

ChainNewsAbmedia3h atrás
Comentário
0/400
Sem comentários