Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
剑桥研究:2026 年人类资料将被 LLM 学习殆尽,AI 恐因「哈布斯堡现象」崩坏
在生成式 AI 时代,OpenAI、Google、Anthropic 等巨头的模型几乎吃尽全网公开资料。但根据牛津大学与多所机构的研究显示,到 2026 至 2028 年,人类能提供给 AI 的高品质公开资料即将耗尽。当网路被 AI 生成内容淹没,新模型势必得用 AI 产生的资料训练自己。这个自我参照的过程,正如同AI 的近亲通婚。
2026 年人类产生的资料,将被 AI 学习殆尽
牛津大学、剑桥大学与多所研究机构于 2024 年 4 月发表的论文 〈The Curse of Recursion: Training on Generated Data Makes Models Forget〉揭露这个现象。
他们发现:当生成式模型反复使用自己产生的资料进行训练时,即使在理想条件下,模型也会逐渐遗忘现实,最终陷入退化。研究团队以语言模型、变分自动编码器 (VAE) 与高斯混合模型 (GMM) 等多种架构实验后指出,每一次再训练都像影印机重印影本:细节逐渐消失,罕见事件最先被遗忘。过几代后,模型只剩下平均值与主流样貌,最终变得平庸、单一、甚至错误。
此过程就像一场由模型自己发动的资料中毒 (self-poisoning)。最终的结果,是模型不再理解语言与现实,输出变成重复的胡言乱语。
史丹佛论文:真实资料持续参与,AI 就不会崩坏
然而,2024 年 4 月史丹佛大学与 Constellation 团队发表的论文 〈Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data〉,带来了更乐观的答案。他们重现了牛津团队的实验,但提出新的训练策略:让资料累积而非替换。也就是说,新一代 AI 不丢弃旧的人类资料,而是持续叠加、融合人类与 AI 生成的内容。
结果显示若每次训练都以新合成资料取代旧资料,模型表现会线性恶化。但若保留原始资料并持续累积,模型误差会逐渐趋于稳定,甚至停止恶化。他们在语言模型 (GPT-2、Llama 2)、影像生成 (VAE)、以及分子生成 (Diffusion model) 上反复验证,皆得到一致结论:只要真实资料仍持续参与,AI 就不会崩坏。
研究者在理论上也证明:当资料累积时,模型误差的上限是有限的,不会无限膨胀。这意味着 AI 的「近亲通婚」不是命中注定,只要我们不切断与人类真实资料的连结。
AI 也有哈布斯堡现象,自我参照回圈如同近亲通婚
曾任 Google 软体工程师的 iKala 创办人程世嘉,用人类历史上知名的哈布斯堡家族来形容这一现象。欧洲历史上知名的哈布斯堡王朝,为了维护血统纯正,用近亲联姻的方式将财富、权力锁在家族内部。结果就是出现知名的「哈布斯堡下巴」,但这只是遗传问题的冰山一角。各种遗传疾病、癫痫、智力缺陷甚至高夭折率都是哈布斯堡家族的诅咒,末代国王卡洛斯二世因此身患多种疾病,终身无后。
程世嘉用更具体的案例来解释,原本是一幅充满了细节、甚至有小瑕疵的风景画。画家风格、细节、笔触、瑕疵等其实就代表基因多样性。第一次影印时,AI 生成影本 (合成数据)。这时影本 99.9% 接近原版。但是,AI 是一个模型,它会从中取平均值,平滑处理瑕疵 (代表罕见知识),并稍微强化最常见的特征 (主流观点)。下一代从中学习,又取平均值,这就是自我参照回圈。
这篇文章 剑桥研究:2026 年人类资料将被 LLM 学习殆尽,AI 恐因「哈布斯堡现象」崩坏 最早出现于 链新闻 ABMedia。