微軟推出 Critique,一個在 M365 Copilot 中的全新多模型深度研究系統

簡述

Microsoft 已在 Researcher 內部(Microsoft 365 Copilot 中的深度研究代理)推出 Critique,這是一套新的多模型深度研究系統,作為更大推動的一部分:讓 Copilot 在嚴肅的知識工作上更顯得可靠,而不只是快速起草。

Microsoft Introduced Critique, A New Multi-Model Deep Research System In M365 CopilotMicrosoft 已在 Researcher 內部(Microsoft 365 Copilot 中的深度研究代理)推出 Critique,這是一套新的多模型深度研究系統,作為更大推動的一部分:讓 Copilot 在嚴肅的知識工作上更顯得可靠,而不只是快速起草

根據 Microsoft 的說法,Critique 旨在處理複雜研究任務,並透過將工作拆成兩部分來運作:第一個模型負責規劃、檢索、綜合與起草,而第二個模型在產出最終報告之前會審閱並精煉輸出。Microsoft 表示該系統使用來自前沿實驗室的模型,包括 OpenAI 與 Anthropic,並且目前可透過該公司的 Frontier 計畫使用

路透社報導,在 Critique 目前的設置中,OpenAI 的 GPT 會生成回應,然後 Anthropic 的 Claude 在答案到達使用者之前,會就準確性與品質進行審查。Microsoft 也表示,它希望這個工作流程之後能變成雙向:讓模型能在雙方向上互相審閱

Critique 實際上在 Microsoft 365 Copilot 內做了什麼

Microsoft 自己的描述已清楚表明,Critique 並不只是個外觀上的功能,或是塞進 Copilot 的新按鈕。它在 Microsoft 365 Copilot 的 Researcher 內運作,並為需要更深入處理的任務而建,因為「做對」的重要性與「做快」同樣高。第一個模型負責挖掘資料並起草報告,而第二個模型就像編輯一樣介入:檢查事實、強化結構,並協助把它轉化為更可靠的最終成品。

Microsoft 表示,整個想法是將生成與評估分開,而不是要求單一模型同時頭腦風暴、撰寫、事實核查並潤飾自己的成果。這種差異很重要,因為許多 AI 失敗正是來自那種單一模型的瓶頸。當單一系統被要求什麼都做時,它可能產出看起來很精緻的內容,卻悄悄遺漏關鍵缺口、在主張上過度延伸,或依賴薄弱證據

Microsoft 表示,Critique 的審閱層是以基於評分規準(rubric)的評估為核心,會關注來源可靠性、報告完整性,以及嚴格的證據落地(evidence grounding)。用白話說,第二個模型會用來檢查:草稿是否真的回答了問題、引用來源是否紮實、以及最終敘事是否有被支撐,而不只是聽起來很有自信

Microsoft 並沒有把 Critique 當成邊做邊學的副實驗來推銷

Microsoft 在公告中更重要的一個細節是:當在模型選擇器中選了 Auto 時,Critique 將成為 Researcher 的預設體驗。這意味著該公司認為這不只是給進階使用者的可選實驗功能。它實際上是在把多模型審閱視為 Microsoft 365 Copilot 內深度研究品質的新基準。這是一個有意義的產品選擇,因為它暗示 Microsoft 認為,企業客戶較不在意原始回應速度,而更在意更少的幻覺(hallucinations)、更強的結構,以及更可靠的完成報告信心感

這也很符合 Microsoft 對 Microsoft 365 Copilot 第 3 波(Wave 3)的更大規模說法:公司一直在推動把 Copilot 定位為「工作系統(system for work)」,其優勢來自多模型,而不是任何單一 AI 實驗室。在 Microsoft 的敘事裡,Copilot 旨在從產業各處拉取最佳可用的智慧,並透過它所稱的 Work IQ 來以工作情境為基礎,再由企業資料控管保護。Critique 目前就是該策略最清楚的例子之一:它正在從行銷話語走向一個可見的產品功能

基準數字是 Microsoft 銷售話術的重要一環

Microsoft 不只是說 Critique 感覺上更好。它還表示,這套系統在正式基準測試中表現更出色。在其技術撰寫中,公司說它在 DRACO 基準上測試了 Critique,DRACO 是 Deep Research Accuracy、Completeness 與 Objectivity(深度研究的準確性、完整性與客觀性)的縮寫,涵蓋來自 10 個領域的 100 個複雜研究任務。Microsoft 說明回應是根據事實準確性、分析的廣度與深度、呈現品質,以及引註品質來評分,並且 Critique 在這四項指標上都超越了 Researcher 的單模型版本

公司特別強調,在分析的廣度與深度方面獲得了最大幅度的提升,其次是呈現品質與事實準確性。它也表示這些改善具有統計顯著性,而且帶有 Critique 的 Researcher 提供了 +7.0 的彙總(aggregated)分數提升,或 +13.88% 相較於 Perplexity Deep Research(Claude Opus 4.6 模型);Microsoft 稱之為基準論文中報告的最佳系統

資料 | 資料來源:Microsoft

這是一個很吸睛的說法,特別是因為深度研究競賽已經成為企業 AI 之中最具競爭性的前沿之一。研究工具不再只被拿來判斷它們是否能蒐集資訊,而是要看它們能否組合出一份讓人一眼就能用於決策的報告

Microsoft 的論點是,審閱層迫使研究者找出缺失的觀點、把組織結構收緊、挑戰薄弱的主張,並更審慎地使用引註(citations)。至於客戶是否在實際工作流程中體驗到這些成效,可能比基準圖表更重要,但 Microsoft 顯然正試圖傳達:這是一個可衡量的品質躍升,而不是一個模糊的模型更新

Council 顯示 Microsoft 正在把眼光放到不只「最佳單一答案」

Critique 並不是 Microsoft 在這次更新中推出的唯一功能。公司同時推出了 Council,這是一種在 Researcher 內部的多模型比較模式。Microsoft 表示,Council 會同時執行 Anthropic 與 OpenAI 的模型,讓每個模型都能生成一份完整的獨立報告。隨後由另一個裁判模型(judge model)產生一份濃縮摘要,顯示各份報告在哪裡一致、在哪裡分歧,以及各自獨特貢獻了什麼。Microsoft Support 將其描述為 Model Council:一種保留完整報告的模式,並額外加入比較摘要,讓使用者能夠判斷哪個輸出更強,或如何將它們組合在一起

這是一個關於企業 AI 可能走向哪裡的非常有趣訊號。先前一段時間,產業的行為就像目標是找出一個模型,能取代所有其他模型。Microsoft 的最新動作暗示,更務實的未來可能是:企業不會足夠信任任何單一模型,從而讓它成為房間裡唯一的聲音

Critique 的時機並非偶然。隨著競爭加劇,Microsoft 受到壓力,需要證明 Microsoft 365 Copilot 變得更有用、更具差異化、也更有價值

路透社將 Critique 與 Council 的推出,連結到 Microsoft 努力提升 Copilot 的採用率;在一個競爭者正強力切入職場 AI 的市場中,Google 的 Gemini 與 Anthropic 的 Claude 等產品都在積極推進。Axios 也指出,Microsoft 的多模型策略還有另一個好處:它表明公司並沒有被迫在 OpenAI 上過度依賴;而在前沿模型的領導地位可能快速變動的時代,這一點尤其重要

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言