Microsoft has introduced Critique, a new multi-model deep research system inside Researcher, the deep research agent in Microsoft 365 Copilot, as part of a broader push to make Copilot feel more dependable for serious knowledge work instead of just fast drafting
Microsoftは「Critiqueのほうが良く感じる」と言うだけではありません。システムが、正式なベンチマークでより良い性能を示したとも述べています。同社の技術的な書き下ろしでは、CritiqueをDRACOベンチマーク(Deep Research Accuracy, Completeness, and Objectivityの略)で試験したとし、10の領域にまたがる100の複雑な調査タスクを対象にしているとしています。Microsoftは、応答が事実の正確さ、分析の幅と深さ、プレゼンテーションの品質、引用(シテーション)の品質という4つの観点で評価され、CritiqueがResearcherの単一モデル版を4つの指標すべてで上回ったと述べています。
同社は、分析の幅と深さで最大の伸びが見られ、その次にプレゼンテーションの品質と事実の正確さが続いたと強調しました。また、改善はいずれも統計的に有意であり、Critiqueを伴うResearcherは、合計スコアで+7.0ポイントの向上、つまりPerplexity Deep Research(Claude Opus 4.6モデル)に対して+13.88%だったと述べています。Microsoftは、ベンチマーク論文で報告された最良のシステムとしてそれを説明しています。
Microsoftは、M365 Copilotに新しいマルチモデル深層研究システム「Critique」を導入しました
概要
Microsoftは、Microsoft 365 Copilot内のリサーチ深掘りエージェントであるResearcherの中に、新しいマルチモデルによるディープリサーチ・システム「Critique」を導入しました。これは、速い下書きだけでなく、真剣な知識業務においてCopilotがより信頼できると感じられるようにするという、より大きな取り組みの一環です。
Microsoftによると、Critiqueは複雑な調査タスク向けに設計されており、仕事を2つの部分に分けて動作します。1つ目のモデルが計画、取得、統合、下書きを担当し、2つ目のモデルが最終レポートが作成される前に出力をレビューして洗練します。Microsoftは、このシステムがOpenAIやAnthropicを含むフロンティアラボのモデルを使用しており、同社のFrontierプログラムを通じて現在利用可能だと述べています。
Reutersによれば、Critiqueの現在のセットアップでは、OpenAIのGPTが応答を生成し、AnthropicのClaudeが精度と品質のためにそれをレビューしたうえで、その答えがユーザーに届きます。Microsoftはまた、このワークフローを後に双方向にしたいとも述べており、両方向でモデル同士が相互にレビューできるようにする考えです。
Microsoft 365 Copilotの中でCritiqueが実際にやっていること
Microsoft自身の説明から、Critiqueは単なる見た目の機能でも、Copilotに後付けされた新しいボタンでもないことが明らかです。Microsoft 365 CopilotのResearcher内で動作し、より深いタスクのために作られており、速く終わらせることと同じくらい「正しくすること」が重要になります。1つ目のモデルが掘り下げてレポートを下書きし、2つ目が編集者のように入って事実を確認し、構成を磨き、より信頼性の高い最終成果物に仕上げるのを助けます。
Microsoftは、1つのモデルに「ブレインストーミング、執筆、事実確認、磨き込み」を同時にすべてさせるのではなく、生成と評価を分けるのが全体の狙いだと言います。この違いが重要なのは、多くのAIの失敗がまさにその1モデルのボトルネックから生じるからです。システムにすべてを一度にやらせると、見た目は整っているものの、実は抜けがあったり、主張を言い過ぎたり、弱い根拠に寄りかかったりしながら、黙ってそれっぽい成果を出してしまうことがあります
MicrosoftはCritiqueを“サイド実験”として売り込んでいない
Microsoftの発表で特に重要な詳細の1つは、モデルピッカーでAutoが選択されたときにResearcherでCritiqueがデフォルト体験になることです。これは同社が、これをパワーユーザー向けの任意のラボ機能以上のものだと見ていることを示しています。実質的に、Microsoft 365 Copilot内のディープリサーチ品質における新たな基準として、マルチモデルのレビューを扱っているのです。これは意味のあるプロダクトの選択であり、同社がエンタープライズ顧客は、生の応答速度よりも、幻覚(ハルシネーション)を減らし、より強い構成を持たせ、完成したレポートへの確信を高めることを重視していると考えていることを示唆しているからです。
これはまた、Microsoft 365 CopilotのWave 3に関する同社のより広いメッセージともきれいに整合します。そこでは同社が、Copilotを、単一のAIラボではなく「マルチモデルの優位性」に基づく「仕事のためのシステム」として捉える考えを押し出してきました。Microsoftの説明では、CopilotはWork IQと呼ぶ仕事の文脈に基づいて根拠づけられ、さらにエンタープライズのデータ管理によって保護されたうえで、業界全体から最良の知性を引き出すことを意図しています。Critiqueは、その戦略がマーケティングの言葉から、見えるプロダクト機能へと移行していることを示す、これまでで最も明確な例の1つです。
ベンチマーク数値がMicrosoftの営業トークの大きな部分
Microsoftは「Critiqueのほうが良く感じる」と言うだけではありません。システムが、正式なベンチマークでより良い性能を示したとも述べています。同社の技術的な書き下ろしでは、CritiqueをDRACOベンチマーク(Deep Research Accuracy, Completeness, and Objectivityの略)で試験したとし、10の領域にまたがる100の複雑な調査タスクを対象にしているとしています。Microsoftは、応答が事実の正確さ、分析の幅と深さ、プレゼンテーションの品質、引用(シテーション)の品質という4つの観点で評価され、CritiqueがResearcherの単一モデル版を4つの指標すべてで上回ったと述べています。
同社は、分析の幅と深さで最大の伸びが見られ、その次にプレゼンテーションの品質と事実の正確さが続いたと強調しました。また、改善はいずれも統計的に有意であり、Critiqueを伴うResearcherは、合計スコアで+7.0ポイントの向上、つまりPerplexity Deep Research(Claude Opus 4.6モデル)に対して+13.88%だったと述べています。Microsoftは、ベンチマーク論文で報告された最良のシステムとしてそれを説明しています。
データ | 出典: Microsoft
これは目を引く主張です。特に、ディープリサーチ競争が、エンタープライズAIにおける最も競争の激しい分野の1つになっているからです。調査ツールは、情報を集められるかどうかだけで判断されなくなり、意思決定に向けた状態に感じられるレポートを組み立てられるかどうかで評価されるようになっています。
Microsoftの主張は、レビュー層が研究者に不足している観点を特定させ、組織(構成)を締め、弱い主張に挑み、引用をより注意深く使わせるというものです。顧客が実際のワークフローでそうした伸びを体感できるかどうかは、ベンチマークの図表以上に重要になるでしょう。しかしMicrosoftは、これが曖昧なモデル更新ではなく、測定可能な品質のジャンプだというシグナルを明確に出そうとしているのは間違いありません。
Councilは、Microsoftが“唯一のベストアンサー”の先を考えていることを示す
Critiqueは、このアップデートとともにMicrosoftが導入した機能の唯一ではありません。同社はResearcher内で動作するマルチモデル比較モード「Council」も立ち上げました。Microsoftによれば、CouncilはAnthropicとOpenAIのモデルを同時に実行し、それぞれが完全な単独レポートを生成できるようにします。続いて、別のジャッジモデルが要約を抽出して作成し、レポート同士で一致している点、食い違う点、そしてそれぞれが独自に提供する点が何かを示します。Microsoft Supportは、これをModel Councilと説明しており、両方の完全レポートを保持しつつ、ユーザーがどちらの出力がより強いか、あるいはそれらをどう組み合わせるべきかを判断しやすくするための比較サマリーを追加するモードだとしています。
これは、エンタープライズAIがどこへ向かう可能性があるかを示す、とても興味深いシグナルです。しばらく業界は、「他のすべてのモデルを置き換えられる1つのモデル」を見つけることが目的だかのように振る舞っていました。Microsoftの最新の動きは、より現実的な未来は、どの単一モデルも部屋の中で唯一の声として信頼できるほど十分ではない、という形になるかもしれないことを示唆しています。
Critiqueのタイミングは偶然ではありません。競争が激化する中で、Microsoft 365 Copilotがより役立ち、より差別化され、より価値あるものになっていることを示すプレッシャーが同社にかかっていました。
Reutersは、CritiqueとCouncilの展開を、ライバルとしてGoogleのGeminiやAnthropicのClaudeの製品が職場のAIに強く踏み込んでいる市場で、MicrosoftがCopilotの導入を改善しようとする取り組みに結び付けました。Axiosも、Microsoftのマルチモデル戦略にはもう1つの利点があると指摘しています。それは、フロンティアモデルのリーダーシップが急速に移り変わり得る状況で、同社がOpenAIへの過度な依存にロックインされていないことを示している点です。