Microsoft presentó Critique, un nuevo sistema de investigación profunda multiamodal en M365 Copilot

En resumen

Microsoft ha presentado Critique, un nuevo sistema de investigación profunda multi-modelo dentro de Researcher, el agente de investigación profunda de Microsoft 365 Copilot, como parte de una iniciativa más amplia para que Copilot se sienta más confiable para tareas serias de trabajo del conocimiento, en lugar de ser solo redacción rápida.

Microsoft Introduced Critique, A New Multi-Model Deep Research System In M365 CopilotMicrosoft ha presentado Critique, un nuevo sistema de investigación profunda multi-modelo dentro de Researcher, el agente de investigación profunda de Microsoft 365 Copilot, como parte de una iniciativa más amplia para que Copilot se sienta más confiable para tareas serias de trabajo del conocimiento, en lugar de ser solo redacción rápida

Según Microsoft, Critique está diseñado para tareas de investigación complejas y funciona dividiendo el trabajo en dos partes: un modelo maneja la planificación, la recuperación, la síntesis y la redacción, mientras que un segundo modelo revisa y refina la salida antes de que se produzca el informe final. Microsoft afirma que el sistema utiliza modelos de laboratorios de vanguardia, incluidos OpenAI y Anthropic, y que ya está disponible a través del programa Frontier de la empresa

Reuters informó que, en la configuración actual de Critique, GPT de OpenAI genera la respuesta y Claude de Anthropic la revisa para verificar la exactitud y la calidad antes de que la respuesta llegue al usuario. Microsoft también ha dicho que quiere que este flujo se vuelva bidireccional más adelante, permitiendo que los modelos se revisen entre sí en ambos sentidos

Lo que Critique realmente hace dentro de Microsoft 365 Copilot

La descripción de Microsoft deja claro que Critique no es solo una función cosmética ni un botón nuevo añadido a Copilot. Funciona dentro de Researcher en Microsoft 365 Copilot y está diseñado para tareas más profundas en las que acertar importa tanto como hacerlo rápido. Un modelo se encarga de la investigación y redacta el informe, mientras que el segundo interviene como un editor: revisa los hechos, afina la estructura y ayuda a convertirlo en una pieza final más fiable.

Microsoft dice que la idea general es separar la generación de la evaluación, en lugar de pedirle a un solo modelo que improvise, redacte, compruebe los hechos y pulienda su propio trabajo todo a la vez. Esa distinción importa porque gran parte de los fallos de la IA proviene precisamente de ese cuello de botella de un solo modelo. Cuando un sistema único se le pide que lo haga todo, puede producir algo que parezca pulido mientras, en silencio, pasa por alto vacíos, se excede en afirmaciones o se apoya en evidencia débil

Microsoft dice que la capa de revisión de Critique se construye mediante evaluación basada en rúbricas, con atención a la fiabilidad de las fuentes, la completitud del informe y una fundamentación estricta en la evidencia. En términos sencillos, el segundo modelo está ahí para preguntar si el borrador realmente respondió a la pregunta, si las fuentes son sólidas y si el relato final está respaldado en lugar de simplemente sonar con confianza

Microsoft no está presentando Critique como un experimento secundario

Uno de los detalles más importantes del anuncio de Microsoft es que Critique será la experiencia predeterminada en Researcher cuando se seleccione Auto en el selector de modelos. Eso indica que la empresa lo ve como algo más que una función opcional para usuarios avanzados. En la práctica, está tratando la revisión multi-modelo como el nuevo estándar para la calidad de la investigación profunda dentro de Microsoft 365 Copilot. Esa es una elección de producto significativa, porque sugiere que Microsoft cree que los clientes empresariales se preocupan menos por la velocidad pura de respuesta que por tener menos alucinaciones, una estructura más sólida y más confianza en el informe final

Eso también encaja de forma natural con el mensaje más amplio de Microsoft sobre la Wave 3 de Microsoft 365 Copilot, donde la empresa ha estado impulsando la idea de Copilot como un “sistema para el trabajo”, construido sobre una ventaja multi-modelo en lugar de depender de cualquier único laboratorio de IA. En el marco de Microsoft, Copilot debe extraer la mejor inteligencia disponible de todo el sector, fundamentada en el contexto del trabajo mediante lo que llama Work IQ y protegida por controles de datos empresariales. Critique es uno de los ejemplos más claros de esa estrategia, que pasa del lenguaje de marketing a una función de producto visible

Los números del benchmark son una gran parte del discurso de ventas de Microsoft

Microsoft no solo está diciendo que Critique se siente mejor. Está diciendo que el sistema rindió mejor en un benchmark formal. En su informe técnico, la empresa afirma que probó Critique en el benchmark DRACO, siglas de Deep Research Accuracy, Completeness, and Objectivity (Precisión, Completitud y Objetividad de la Investigación Profunda), que abarca 100 tareas complejas de investigación en 10 dominios. Microsoft dice que las respuestas se evaluaron en exactitud factual, amplitud y profundidad del análisis, calidad de la presentación y calidad de las citas, y que Critique superó la versión de un solo modelo de Researcher en las cuatro medidas

La empresa destacó las mayores mejoras en amplitud y profundidad del análisis, seguidas por la calidad de la presentación y la exactitud factual. También dice que las mejoras fueron estadísticamente significativas y que Researcher con Critique entregó una mejora agregada de +7.0 puntos, es decir, +13.88% sobre Perplexity Deep Research (modelo Claude Opus 4.6), que Microsoft describió como el mejor sistema reportado en el artículo del benchmark

Data | Fuente: Microsoft

Esa es una afirmación llamativa, especialmente porque la carrera por la investigación profunda se ha convertido en uno de los frentes más competitivos en IA empresarial. Las herramientas de investigación ya no se juzgan solo por si pueden reunir información, sino por si pueden armar un informe que se sienta listo para la toma de decisiones

El argumento de Microsoft es que la capa de revisión obliga a los investigadores a identificar ángulos faltantes, ajustar la organización, cuestionar afirmaciones débiles y usar las citas con mayor cuidado. Que los clientes experimenten esas mejoras en flujos de trabajo reales importará más que las gráficas del benchmark, pero Microsoft claramente intenta señalar que se trata de un salto de calidad medible, no de una actualización vaga del modelo

Council muestra que Microsoft está pensando más allá de un “mejor resultado”

Critique no es la única función que Microsoft introdujo junto con esta actualización. La empresa también lanzó Council, un modo de comparación multi-modelo dentro de Researcher. Microsoft dice que Council ejecuta simultáneamente modelos de Anthropic y OpenAI, lo que permite que cada uno genere un informe completo independiente. Luego, un modelo juez separado crea un resumen destilado que muestra en qué puntos los informes coinciden, en qué se separan y qué aporta cada uno de manera única. Microsoft Support lo describe como Model Council, un modo que conserva tanto los informes completos como agrega un resumen de comparación para ayudar a los usuarios a decidir qué salida es más fuerte o cómo combinarlas

Eso es una señal muy interesante sobre hacia dónde podría estar yendo la IA empresarial. Por un tiempo, la industria se comportó como si el objetivo fuera encontrar un solo modelo que pudiera reemplazar a todos los demás. El movimiento más reciente de Microsoft sugiere que el futuro más realista puede ser uno en el que las empresas no confíen lo suficiente en ningún modelo como para convertirlo en la única voz en la sala

El momento de Critique no es casual. Microsoft ha estado bajo presión para demostrar que Microsoft 365 Copilot se está volviendo más útil, más diferenciado y más valioso a medida que la competencia se intensifica

Reuters vinculó el despliegue de Critique y Council al esfuerzo de Microsoft por mejorar la adopción de Copilot en un mercado donde rivales como los productos Claude de Anthropic y Gemini de Google están impulsando con fuerza la IA en el lugar de trabajo. Axios también señaló que la estrategia multi-modelo de Microsoft tiene otro beneficio: demuestra que la empresa no está atrapada en una dependencia excesiva de OpenAI en un momento en que el liderazgo de los modelos de vanguardia puede cambiar con rapidez

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado