Databricks 指出:頂級 AI 模型在例行企業任務上落後 更小的專業化模型表現更佳

Gate News 訊息,4 月 20 日 — 根據 Databricks 的 David Meyer 表示,頂級 AI 模型擅長解決奧林匹亞數學等複雜問題,但在例行企業工作上卻力有未逮。某些模型可能會把不正確的發票編號更正掉,而不是將其標記為錯誤;而像 Claude 這樣的程式碼工具在資料工程任務上也可能同樣表現不佳。

這個落差源於企業資料與用來訓練大型模型的公開網路文字之間存在基本差異。企業資料往往包含模糊的欄位標籤、大量空白欄位,並且以純文字形式存放程式碼。在一項學術研究中,某個 AI 模型的 F1 分數(在精確率與召回率之間做平衡)從公開資料的 0.94 下降到資料工程任務中企業資料的 0.07。此外,大型模型通常會預設採用訓練期間熟悉的模式;有些模型即使在收到針對公司專有查詢語言的指示與文件後,仍預設使用結構化查詢語言 (SQL)。

透過強化學習調校的小型開源模型,能以比大型通用模型更有效率的方式處理特定工作,且訓練成本大幅降低。Databricks 正在為特定工作流程打造更小的 AI 代理,例如 KARL:它使用強化學習,透過公司的文件進行多步推理。產業正從仰賴巨型模型,轉向混合式架構:由小型且高效的模型處理例行的龐大輸入量,只有在遇到不明確或複雜的情況時,才將任務上升到更大型、成本更高的系統。

Databricks 近期收購了 Quotient AI,協助大型企業更可靠地運行 AI 代理。目前在 AI 產業中,競爭重點已轉向能否完整跑完 AI 生命週期,包括用於追蹤錯誤的回饋系統,並隨時間持續改進模型;因此,評估與調校工具在部署後變得愈發重要。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆