2026-05-10 04:13:23
Microsoft 將 Phi-Ground 4B 模型開源,表現優於 OpenAI Operator 與 Claude 的點擊螢幕準確率
根據 Beating,Microsoft 最近開源了 Phi-Ground 模型家族,該家族旨在解決「AI 應該在電腦螢幕的哪裡點擊」這個問題。這個 40 億參數版本,並搭配用於指令規劃的大型語言模型,在 Showdown 基準測試中超越了 OpenAI Operator 與 Claude Computer Use 的點擊精度,並在包含 ScreenSpot-Pro 的五項評估中,於所有低於 100 億參數的模型中排名第一。 團隊以超過 4,000 萬筆資料樣本進行訓練,並發現學術論文中常用的三種訓練技術在規模化後變得無效。關鍵方法證實其實很簡單:輸出座標作為一般數字,例如「523, 417」。先前的研究為座標發明了專用位置詞彙,但這些方法無法擴展到更大規模。團隊也發現,將文字指令放在影像之前能提升效能,因為模型在處理像素時就能辨識目標。此外,像 DPO 這類強化學習方法,即使在微調之後也能提升準確度。