微軟推出 Critique，一個在 M365 Copilot 中的全新多模型深度研究系統

Mpost Media Group · 2026-04-06T06:03:48+00:00

簡要內容微軟已推出 Critique，一個嶄新的多模型深度研究系統，內建於 Microsoft 365 Copilot 的深度研究代理 Researcher 中，作為一項更廣泛的推動，旨在讓 Copilot 在嚴肅的知識工作中更具可靠性，而不僅僅是快速起草。

Mpost Media Group

2026-04-06 06:03:48

簡述

Microsoft 已在 Researcher 內部（Microsoft 365 Copilot 中的深度研究代理）推出 Critique，這是一套新的多模型深度研究系統，作為更大推動的一部分：讓 Copilot 在嚴肅的知識工作上更顯得可靠，而不只是快速起草。

Microsoft 已在 Researcher 內部（Microsoft 365 Copilot 中的深度研究代理）推出 Critique，這是一套新的多模型深度研究系統，作為更大推動的一部分：讓 Copilot 在嚴肅的知識工作上更顯得可靠，而不只是快速起草

根據 Microsoft 的說法，Critique 旨在處理複雜研究任務，並透過將工作拆成兩部分來運作：第一個模型負責規劃、檢索、綜合與起草，而第二個模型在產出最終報告之前會審閱並精煉輸出。Microsoft 表示該系統使用來自前沿實驗室的模型，包括 OpenAI 與 Anthropic，並且目前可透過該公司的 Frontier 計畫使用

路透社報導，在 Critique 目前的設置中，OpenAI 的 GPT 會生成回應，然後 Anthropic 的 Claude 在答案到達使用者之前，會就準確性與品質進行審查。Microsoft 也表示，它希望這個工作流程之後能變成雙向：讓模型能在雙方向上互相審閱

Critique 實際上在 Microsoft 365 Copilot 內做了什麼

Microsoft 自己的描述已清楚表明，Critique 並不只是個外觀上的功能，或是塞進 Copilot 的新按鈕。它在 Microsoft 365 Copilot 的 Researcher 內運作，並為需要更深入處理的任務而建，因為「做對」的重要性與「做快」同樣高。第一個模型負責挖掘資料並起草報告，而第二個模型就像編輯一樣介入：檢查事實、強化結構，並協助把它轉化為更可靠的最終成品。

Microsoft 表示，整個想法是將生成與評估分開，而不是要求單一模型同時頭腦風暴、撰寫、事實核查並潤飾自己的成果。這種差異很重要，因為許多 AI 失敗正是來自那種單一模型的瓶頸。當單一系統被要求什麼都做時，它可能產出看起來很精緻的內容，卻悄悄遺漏關鍵缺口、在主張上過度延伸，或依賴薄弱證據

Microsoft 表示，Critique 的審閱層是以基於評分規準（rubric）的評估為核心，會關注來源可靠性、報告完整性，以及嚴格的證據落地（evidence grounding）。用白話說，第二個模型會用來檢查：草稿是否真的回答了問題、引用來源是否紮實、以及最終敘事是否有被支撐，而不只是聽起來很有自信

Microsoft 並沒有把 Critique 當成邊做邊學的副實驗來推銷

Microsoft 在公告中更重要的一個細節是：當在模型選擇器中選了 Auto 時，Critique 將成為 Researcher 的預設體驗。這意味著該公司認為這不只是給進階使用者的可選實驗功能。它實際上是在把多模型審閱視為 Microsoft 365 Copilot 內深度研究品質的新基準。這是一個有意義的產品選擇，因為它暗示 Microsoft 認為，企業客戶較不在意原始回應速度，而更在意更少的幻覺（hallucinations）、更強的結構，以及更可靠的完成報告信心感

這也很符合 Microsoft 對 Microsoft 365 Copilot 第 3 波（Wave 3）的更大規模說法：公司一直在推動把 Copilot 定位為「工作系統（system for work）」，其優勢來自多模型，而不是任何單一 AI 實驗室。在 Microsoft 的敘事裡，Copilot 旨在從產業各處拉取最佳可用的智慧，並透過它所稱的 Work IQ 來以工作情境為基礎，再由企業資料控管保護。Critique 目前就是該策略最清楚的例子之一：它正在從行銷話語走向一個可見的產品功能

基準數字是 Microsoft 銷售話術的重要一環

Microsoft 不只是說 Critique 感覺上更好。它還表示，這套系統在正式基準測試中表現更出色。在其技術撰寫中，公司說它在 DRACO 基準上測試了 Critique，DRACO 是 Deep Research Accuracy、Completeness 與 Objectivity（深度研究的準確性、完整性與客觀性）的縮寫，涵蓋來自 10 個領域的 100 個複雜研究任務。Microsoft 說明回應是根據事實準確性、分析的廣度與深度、呈現品質，以及引註品質來評分，並且 Critique 在這四項指標上都超越了 Researcher 的單模型版本

公司特別強調，在分析的廣度與深度方面獲得了最大幅度的提升，其次是呈現品質與事實準確性。它也表示這些改善具有統計顯著性，而且帶有 Critique 的 Researcher 提供了 +7.0 的彙總（aggregated）分數提升，或 +13.88% 相較於 Perplexity Deep Research（Claude Opus 4.6 模型）；Microsoft 稱之為基準論文中報告的最佳系統

資料 | 資料來源：Microsoft

這是一個很吸睛的說法，特別是因為深度研究競賽已經成為企業 AI 之中最具競爭性的前沿之一。研究工具不再只被拿來判斷它們是否能蒐集資訊，而是要看它們能否組合出一份讓人一眼就能用於決策的報告

Microsoft 的論點是，審閱層迫使研究者找出缺失的觀點、把組織結構收緊、挑戰薄弱的主張，並更審慎地使用引註（citations）。至於客戶是否在實際工作流程中體驗到這些成效，可能比基準圖表更重要，但 Microsoft 顯然正試圖傳達：這是一個可衡量的品質躍升，而不是一個模糊的模型更新

Council 顯示 Microsoft 正在把眼光放到不只「最佳單一答案」

Critique 並不是 Microsoft 在這次更新中推出的唯一功能。公司同時推出了 Council，這是一種在 Researcher 內部的多模型比較模式。Microsoft 表示，Council 會同時執行 Anthropic 與 OpenAI 的模型，讓每個模型都能生成一份完整的獨立報告。隨後由另一個裁判模型（judge model）產生一份濃縮摘要，顯示各份報告在哪裡一致、在哪裡分歧，以及各自獨特貢獻了什麼。Microsoft Support 將其描述為 Model Council：一種保留完整報告的模式，並額外加入比較摘要，讓使用者能夠判斷哪個輸出更強，或如何將它們組合在一起

這是一個關於企業 AI 可能走向哪裡的非常有趣訊號。先前一段時間，產業的行為就像目標是找出一個模型，能取代所有其他模型。Microsoft 的最新動作暗示，更務實的未來可能是：企業不會足夠信任任何單一模型，從而讓它成為房間裡唯一的聲音

Critique 的時機並非偶然。隨著競爭加劇，Microsoft 受到壓力，需要證明 Microsoft 365 Copilot 變得更有用、更具差異化、也更有價值

路透社將 Critique 與 Council 的推出，連結到 Microsoft 努力提升 Copilot 的採用率；在一個競爭者正強力切入職場 AI 的市場中，Google 的 Gemini 與 Anthropic 的 Claude 等產品都在積極推進。Axios 也指出，Microsoft 的多模型策略還有另一個好處：它表明公司並沒有被迫在 OpenAI 上過度依賴；而在前沿模型的領導地位可能快速變動的時代，這一點尤其重要

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate廣場四月發帖挑戰
58.9萬熱度
#
假期持幣指南
5.05萬熱度
#
加密市場行情震盪
19.15萬熱度
#
國際油價走高
146.86萬熱度
#
三月非農數據來襲
26.98萬熱度

熱門 Gate Fun
查看更多

1
Roseb
偶像币
市值:$2244.82持有人數:0
0.00%
2
HURMOZ
HURMOZ
市值:$2244.82持有人數:1
0.00%
3
RRLX
ROOT RLX
市值:$2248.27持有人數:1
0.00%
4
oil
oil
市值:$2251.72持有人數:1
0.00%
5
HORMUZ
HORMUZ
市值:$2251.72持有人數:1
0.00%

微軟推出 Critique，一個在 M365 Copilot 中的全新多模型深度研究系統

Critique 實際上在 Microsoft 365 Copilot 內做了什麼

Microsoft 並沒有把 Critique 當成邊做邊學的副實驗來推銷

基準數字是 Microsoft 銷售話術的重要一環

Council 顯示 Microsoft 正在把眼光放到不只「最佳單一答案」

熱門話題

Gate廣場四月發帖挑戰

假期持幣指南

加密市場行情震盪

國際油價走高

三月非農數據來襲

熱門 Gate Fun

Roseb

偶像币

HURMOZ

HURMOZ

RRLX

ROOT RLX

oil

oil

HORMUZ

HORMUZ

置頂