斯坦福團隊提出RAGEN-2,用互信息正則化器解決RL智能體行為空洞問題

ME News 消息,4 月 9 日(UTC+8),近日,一项名为RAGEN-2的研究指出,通过强化学习训练的智能体虽然看起来行为多样,但实际上只是在重复模板,导致高熵但近乎零的互信息,即模型学会了多种方式来说空话。为解决这一问题,研究者提出了一种互信息感知的正则化器。该研究由@wzenus、@ManlingLi_、@YejinChoinka和Fei-Fei Li共同完成。(来源:InFoQ)

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆