📢 早安!Gate 廣場|4/5 熱議:#假期持币指南
🌿 踏青還是盯盤?#假期持币指南 帶你過個“放鬆感”長假!
春光正好,你是選擇在山間深呼吸,還是在 K 線裡找時機?在這個清明假期,曬出你的持幣態度,做個精神飽滿的交易員!
🎁 分享生活/交易感悟,抽 5 位幸運兒瓜分 $1,000 仓位體驗券!
💬 茶餘飯後聊聊:
1️⃣ 假期心態: 你是“關掉通知、徹底失聯”派,還是“每 30 分鐘必刷行情”派?
2️⃣ 懶人秘籍: 假期不想盯盤?分享你的“掛機”策略(定投/網格/理財)。
3️⃣ 四月展望: 假期過後,你最看好哪個幣種“春暖花開”?
分享你的假期姿態 👉 https://www.gate.com/post
📅 4/4 15:00 - 4/6 18:00 (UTC+8)
微軟推出 Critique,一個在 M365 Copilot 中的全新多模型深度研究系統
簡述
Microsoft 已在 Researcher 內部(Microsoft 365 Copilot 中的深度研究代理)推出 Critique,這是一套新的多模型深度研究系統,作為更大推動的一部分:讓 Copilot 在嚴肅的知識工作上更顯得可靠,而不只是快速起草。
根據 Microsoft 的說法,Critique 旨在處理複雜研究任務,並透過將工作拆成兩部分來運作:第一個模型負責規劃、檢索、綜合與起草,而第二個模型在產出最終報告之前會審閱並精煉輸出。Microsoft 表示該系統使用來自前沿實驗室的模型,包括 OpenAI 與 Anthropic,並且目前可透過該公司的 Frontier 計畫使用
路透社報導,在 Critique 目前的設置中,OpenAI 的 GPT 會生成回應,然後 Anthropic 的 Claude 在答案到達使用者之前,會就準確性與品質進行審查。Microsoft 也表示,它希望這個工作流程之後能變成雙向:讓模型能在雙方向上互相審閱
Critique 實際上在 Microsoft 365 Copilot 內做了什麼
Microsoft 自己的描述已清楚表明,Critique 並不只是個外觀上的功能,或是塞進 Copilot 的新按鈕。它在 Microsoft 365 Copilot 的 Researcher 內運作,並為需要更深入處理的任務而建,因為「做對」的重要性與「做快」同樣高。第一個模型負責挖掘資料並起草報告,而第二個模型就像編輯一樣介入:檢查事實、強化結構,並協助把它轉化為更可靠的最終成品。
Microsoft 表示,整個想法是將生成與評估分開,而不是要求單一模型同時頭腦風暴、撰寫、事實核查並潤飾自己的成果。這種差異很重要,因為許多 AI 失敗正是來自那種單一模型的瓶頸。當單一系統被要求什麼都做時,它可能產出看起來很精緻的內容,卻悄悄遺漏關鍵缺口、在主張上過度延伸,或依賴薄弱證據
Microsoft 並沒有把 Critique 當成邊做邊學的副實驗來推銷
Microsoft 在公告中更重要的一個細節是:當在模型選擇器中選了 Auto 時,Critique 將成為 Researcher 的預設體驗。這意味著該公司認為這不只是給進階使用者的可選實驗功能。它實際上是在把多模型審閱視為 Microsoft 365 Copilot 內深度研究品質的新基準。這是一個有意義的產品選擇,因為它暗示 Microsoft 認為,企業客戶較不在意原始回應速度,而更在意更少的幻覺(hallucinations)、更強的結構,以及更可靠的完成報告信心感
這也很符合 Microsoft 對 Microsoft 365 Copilot 第 3 波(Wave 3)的更大規模說法:公司一直在推動把 Copilot 定位為「工作系統(system for work)」,其優勢來自多模型,而不是任何單一 AI 實驗室。在 Microsoft 的敘事裡,Copilot 旨在從產業各處拉取最佳可用的智慧,並透過它所稱的 Work IQ 來以工作情境為基礎,再由企業資料控管保護。Critique 目前就是該策略最清楚的例子之一:它正在從行銷話語走向一個可見的產品功能
基準數字是 Microsoft 銷售話術的重要一環
Microsoft 不只是說 Critique 感覺上更好。它還表示,這套系統在正式基準測試中表現更出色。在其技術撰寫中,公司說它在 DRACO 基準上測試了 Critique,DRACO 是 Deep Research Accuracy、Completeness 與 Objectivity(深度研究的準確性、完整性與客觀性)的縮寫,涵蓋來自 10 個領域的 100 個複雜研究任務。Microsoft 說明回應是根據事實準確性、分析的廣度與深度、呈現品質,以及引註品質來評分,並且 Critique 在這四項指標上都超越了 Researcher 的單模型版本
公司特別強調,在分析的廣度與深度方面獲得了最大幅度的提升,其次是呈現品質與事實準確性。它也表示這些改善具有統計顯著性,而且帶有 Critique 的 Researcher 提供了 +7.0 的彙總(aggregated)分數提升,或 +13.88% 相較於 Perplexity Deep Research(Claude Opus 4.6 模型);Microsoft 稱之為基準論文中報告的最佳系統
資料 | 資料來源:Microsoft
這是一個很吸睛的說法,特別是因為深度研究競賽已經成為企業 AI 之中最具競爭性的前沿之一。研究工具不再只被拿來判斷它們是否能蒐集資訊,而是要看它們能否組合出一份讓人一眼就能用於決策的報告
Microsoft 的論點是,審閱層迫使研究者找出缺失的觀點、把組織結構收緊、挑戰薄弱的主張,並更審慎地使用引註(citations)。至於客戶是否在實際工作流程中體驗到這些成效,可能比基準圖表更重要,但 Microsoft 顯然正試圖傳達:這是一個可衡量的品質躍升,而不是一個模糊的模型更新
Council 顯示 Microsoft 正在把眼光放到不只「最佳單一答案」
Critique 並不是 Microsoft 在這次更新中推出的唯一功能。公司同時推出了 Council,這是一種在 Researcher 內部的多模型比較模式。Microsoft 表示,Council 會同時執行 Anthropic 與 OpenAI 的模型,讓每個模型都能生成一份完整的獨立報告。隨後由另一個裁判模型(judge model)產生一份濃縮摘要,顯示各份報告在哪裡一致、在哪裡分歧,以及各自獨特貢獻了什麼。Microsoft Support 將其描述為 Model Council:一種保留完整報告的模式,並額外加入比較摘要,讓使用者能夠判斷哪個輸出更強,或如何將它們組合在一起
這是一個關於企業 AI 可能走向哪裡的非常有趣訊號。先前一段時間,產業的行為就像目標是找出一個模型,能取代所有其他模型。Microsoft 的最新動作暗示,更務實的未來可能是:企業不會足夠信任任何單一模型,從而讓它成為房間裡唯一的聲音
Critique 的時機並非偶然。隨著競爭加劇,Microsoft 受到壓力,需要證明 Microsoft 365 Copilot 變得更有用、更具差異化、也更有價值
路透社將 Critique 與 Council 的推出,連結到 Microsoft 努力提升 Copilot 的採用率;在一個競爭者正強力切入職場 AI 的市場中,Google 的 Gemini 與 Anthropic 的 Claude 等產品都在積極推進。Axios 也指出,Microsoft 的多模型策略還有另一個好處:它表明公司並沒有被迫在 OpenAI 上過度依賴;而在前沿模型的領導地位可能快速變動的時代,這一點尤其重要