Gate 廣場創作者新春激勵正式開啟,發帖解鎖 $60,000 豪華獎池
如何參與:
報名活動表單:https://www.gate.com/questionnaire/7315
使用廣場任意發帖小工具,搭配文字發布內容即可
豐厚獎勵一覽:
發帖即可可瓜分 $25,000 獎池
10 位幸運用戶:獲得 1 GT + Gate 鸭舌帽
Top 發帖獎勵:發帖與互動越多,排名越高,贏取 Gate 新年周邊、Gate 雙肩包等好禮
新手專屬福利:首帖即得 $50 獎勵,繼續發帖还能瓜分 $10,000 新手獎池
活動時間:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
詳情:https://www.gate.com/announcements/article/49112
用暫停 token 重新訓練大模型,AI 學會三思而後行
來源:量子位
讓ChatGPT給出答案之前多想想步驟,就能提高準確率。
那麼能不能省去提示詞,直接把這種能力內化在大模型里呢?
CMU與谷歌團隊的新研究,在訓練大模型時加入暫停token來實現這一點。
預訓練微調都加入暫停token
整個研究基於一個簡單的想法:
在輸入序列後面追加一系列(暫停token),從而延遲模型輸出下一個token。
這可以給模型額外的計算時間來處理更複雜的輸入。
下游任務微調時,輸入中也追加一定數量的暫停 token,然後對目標序列進行自回歸預測,同時微調模型參數。
推理階段也追加相同數量的暫停token,但忽略模型輸出直到最後一個暫停token,然後開始提取答案。
實驗使用了標準的Transformer純Decoder模型,分為130M參數和1B參數兩個版本。
其中暫停token只增加了1024個參數,也就是它本身的embedding大小。
在9個不同任務上的實驗表明,僅在微調階段引入暫停token的效果並不明顯,有些任務不會提升。
但如果在預訓練和finetune階段都使用暫停token,大多數任務上都獲得顯著提升。
論文還探究了暫停token的數量、位置等關鍵超參數。 發現對於不同的模型通常存在一個最優的數量。
最後作者也提出,這項工作也有不少局限性。
搜尋引擎 You.com 的CEO表示,接下來是不是應該把所有提高人類認知表現的技巧都對大模型試一試?
也許下一個爆款論文就是教大模型帶著問題睡一覺或者更離譜的健康飲食、注意鍛煉。
論文位址:
參考連結:
[1]