根據 Beating,Xiaomi 的 AI 團隊發布並開源了 ControlFoley,一個視訊音訊生成框架,讓創作者透過文字描述或參考音訊,對聲音風格進行精準控制。不同於僅僅從影像推斷聲音的傳統 AI 配音系統,ControlFoley 讓創作者能修改音訊特性——例如把敲門聲改成金屬敲擊,或將鼓點音色套用到網球的撞擊上——同時維持音視同步。該框架使用時空音視編碼器,並採用時間與音色解耦策略。該專案的技術報告、程式碼、模型權重以及示範現在皆已提供。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱
免責聲明。