A Microsoft apresentou Critique, um novo sistema de pesquisa profunda multi-modelo no M365 Copilot

Em resumo

A Microsoft introduziu o Critique, um novo sistema de investigação profunda multi-modelo dentro do Researcher, o agente de investigação profunda no Microsoft 365 Copilot, como parte de uma iniciativa mais ampla para fazer com que o Copilot pareça mais fiável para trabalho sério de conhecimento, em vez de apenas rascunhar rapidamente.

Microsoft Introduced Critique, A New Multi-Model Deep Research System In M365 CopilotA Microsoft introduziu o Critique, um novo sistema de investigação profunda multi-modelo dentro do Researcher, o agente de investigação profunda no Microsoft 365 Copilot, como parte de uma iniciativa mais ampla para fazer com que o Copilot pareça mais fiável para trabalho sério de conhecimento, em vez de apenas rascunhar rapidamente

Segundo a Microsoft, o Critique foi concebido para tarefas de investigação complexas e funciona ao dividir o trabalho em duas partes: um modelo trata do planeamento, da recuperação, da síntese e da redação, enquanto um segundo modelo analisa e refina a saída antes de o relatório final ser produzido. A Microsoft afirma que o sistema utiliza modelos de laboratórios de ponta, incluindo a OpenAI e a Anthropic, e que está já disponível através do programa Frontier da empresa

A Reuters informou que, na configuração atual do Critique, o GPT da OpenAI gera a resposta e o Claude da Anthropic a revê quanto à exactidão e à qualidade antes de a resposta chegar ao utilizador. A Microsoft também disse que quer que este fluxo de trabalho se torne mais bidireccional mais tarde, permitindo que os modelos se revejam mutuamente em ambos os sentidos

O que o Critique faz, na prática, dentro do Microsoft 365 Copilot

A descrição da própria Microsoft deixa claro que o Critique não é apenas uma funcionalidade cosmética nem um botão novo colado ao Copilot.It funciona dentro do Researcher no Microsoft 365 Copilot e foi construído para tarefas mais profundas em que acertar é tão importante como fazer rapidamente. Um modelo aprofunda-se e rascunha o relatório, enquanto o segundo entra como um editor, verificando os factos, aperfeiçoando a estrutura e ajudando a transformá-lo numa peça final mais fiável.

A Microsoft afirma que a ideia geral é separar a geração da avaliação, em vez de pedir a um único modelo que se ponha a brainstorm, escreva, faça verificação de factos e dê polimento ao próprio trabalho tudo ao mesmo tempo. Essa distinção importa porque grande parte das falhas da IA vem exactamente desse gargalo de um único modelo. Quando um único sistema é incumbido de fazer tudo, pode produzir algo com aparência bem polida, mas que falha silenciosamente ao não cobrir lacunas, ao ir longe demais nas afirmações, ou ao apoiar-se em evidência fraca

A Microsoft diz que a camada de revisão do Critique é construída com base numa avaliação assente em rubricas, com atenção à fiabilidade das fontes, à completude do relatório e a uma base estrita em evidência. Em linguagem simples, o segundo modelo serve para perguntar se o rascunho respondeu de facto à questão, se as fontes são sólidas e se a narrativa final é sustentada, em vez de apenas soar confiante

A Microsoft não está a vender o Critique como um experimento paralelo

Um dos detalhes mais importantes do anúncio da Microsoft é que o Critique será a experiência predefinida no Researcher quando Auto estiver seleccionado no selector de modelo. Isso indica que a empresa vê isto como mais do que uma funcionalidade laboratorial opcional para utilizadores avançados. Na prática, está a tratar a revisão multi-modelo como o novo padrão para a qualidade da investigação profunda dentro do Microsoft 365 Copilot. Esta é uma escolha de produto significativa, porque sugere que a Microsoft acredita que os clientes empresariais se preocupam menos com a velocidade bruta da resposta do que com menos alucinações, uma estrutura mais robusta e mais confiança no relatório final.

Isso também se encaixa de forma directa na mensagem mais ampla da Microsoft em torno da Wave 3 do Microsoft 365 Copilot, em que a empresa tem vindo a defender a ideia do Copilot como um “sistema para trabalho” construído numa vantagem multi-modelo, e não em qualquer laboratório de IA isolado. Na forma como a Microsoft enquadra, o Copilot deve extrair a melhor inteligência disponível de toda a indústria, assente no contexto do trabalho através do que chama Work IQ e protegido por controlos de dados empresariais. O Critique é um dos exemplos mais claros até agora dessa estratégia passar da linguagem de marketing para uma funcionalidade de produto visível

Os números do benchmark são uma grande parte do argumento de vendas da Microsoft

A Microsoft não está apenas a dizer que o Critique parece melhor. Está também a dizer que o sistema teve desempenho superior num benchmark formal. No seu texto técnico, a empresa afirma que testou o Critique no benchmark DRACO, sigla de Deep Research Accuracy, Completeness, and Objectivity, que cobre 100 tarefas complexas de investigação em 10 domínios. A Microsoft diz que as respostas foram avaliadas quanto à exactidão factual, abrangência e profundidade da análise, qualidade de apresentação e qualidade das citações, e que o Critique superou a versão de modelo único do Researcher em todas as quatro medidas

A empresa destacou os maiores ganhos na abrangência e profundidade da análise, seguida da qualidade de apresentação e da exactidão factual. Também afirma que as melhorias foram estatisticamente significativas e que o Researcher com Critique entregou uma melhoria agregada de +7,0 pontos, ou +13,88% face ao Perplexity Deep Research (modelo Claude Opus 4.6), que a Microsoft descreveu como o melhor sistema reportado no artigo do benchmark

Data | Fonte: Microsoft

Trata-se de uma afirmação bastante apelativa, sobretudo porque a corrida à investigação profunda se tornou um dos fronts mais competitivos na IA empresarial. As ferramentas de pesquisa já não são avaliadas apenas pela capacidade de recolher informação, mas pela capacidade de reunir um relatório que pareça pronto para decisão

O argumento da Microsoft é que a camada de revisão obriga os investigadores a identificar ângulos em falta, a apertar a organização, a desafiar afirmações fracas e a usar citações com mais cuidado. Saber se os clientes experienciam esses ganhos em fluxos de trabalho reais será mais importante do que gráficos de benchmark, mas a Microsoft está claramente a tentar sinalizar uma melhoria de qualidade mensurável, e não uma actualização vaga do modelo

O Council mostra que a Microsoft está a pensar para além de uma “melhor resposta”

O Critique não é a única funcionalidade que a Microsoft introduziu em conjunto com esta actualização. A empresa lançou também o Council, um modo de comparação multi-modelo dentro do Researcher. A Microsoft diz que o Council executa simultaneamente modelos da Anthropic e da OpenAI, permitindo que cada um gere um relatório completo independente. Um modelo de avaliador separado, por sua vez, cria um resumo distilado que mostra onde os relatórios concordam, onde divergem e o que cada um contribui de forma única. O Suporte da Microsoft descreve isto como Model Council, um modo que preserva ambos os relatórios completos e acrescenta um resumo de comparação para ajudar os utilizadores a decidir qual output é mais forte, ou como os combinar

Este é um sinal muito interessante sobre para onde poderá estar a caminho a IA empresarial. Durante algum tempo, a indústria comportou-se como se o objectivo fosse encontrar um único modelo que pudesse substituir todos os outros. A movimentação mais recente da Microsoft sugere que o futuro mais realista poderá ser um em que as empresas não confiam em nenhum modelo isolado o suficiente para o tornar na única voz dentro da sala

O timing do Critique não é acidental. A Microsoft tem estado sob pressão para mostrar que o Microsoft 365 Copilot está a tornar-se mais útil, mais diferenciado e mais valioso à medida que a concorrência se intensifica

A Reuters associou o lançamento do Critique e do Council aos esforços da Microsoft para melhorar a adopção do Copilot num mercado em que rivais como os produtos Gemini da Google e os produtos Claude da Anthropic estão a avançar com força para a IA no local de trabalho. A Axios também salientou que a estratégia multi-modelo da Microsoft tem outra vantagem: mostra que a empresa não está bloqueada numa dependência excessiva da OpenAI, num momento em que a liderança dos modelos de ponta pode mudar rapidamente

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar