字节终于把扩散语言模型放出来了,23B参数在潜在空间做文本生成,思路挺野的。

ME News
字节跳动开源Cola DLM:用扩散模型重新定义文本生成
字节跳动 Seed 开源 Cola DLM,是一套在潜在语义层进行文本扩散的模型。Text VAE 将文本映射到连续潜在空间,block-causal DiT 通过 Flow Matching 学习潜在先验,最终由条件解码器把潜在变量还原成文本。总参数约23亿(DiT 18亿、VAE 5亿)。在8项评测中与同规模 AR/LLaDA 基线竞争并居前,但仍是研究型 checkpoint,未经过指令微调或 RLHF,当前仓库仅含文本管线,未来或扩展到文本-图像。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论