剑桥研究：2026 年人类资料将被 LLM 学习殆尽，AI 恐因「哈布斯堡现象」崩坏

2025-10-31 16:14:07

在生成式 AI 时代，OpenAI、Google、Anthropic 等巨头的模型几乎吃尽全网公开资料。但根据牛津大学与多所机构的研究显示，到 2026 至 2028 年，人类能提供给 AI 的高品质公开资料即将耗尽。当网路被 AI 生成内容淹没，新模型势必得用 AI 产生的资料训练自己。这个自我参照的过程，正如同AI 的近亲通婚。

2026 年人类产生的资料，将被 AI 学习殆尽

牛津大学、剑桥大学与多所研究机构于 2024 年 4 月发表的论文〈The Curse of Recursion: Training on Generated Data Makes Models Forget〉揭露这个现象。

他们发现：当生成式模型反复使用自己产生的资料进行训练时，即使在理想条件下，模型也会逐渐遗忘现实，最终陷入退化。研究团队以语言模型、变分自动编码器 (VAE) 与高斯混合模型 (GMM) 等多种架构实验后指出，每一次再训练都像影印机重印影本：细节逐渐消失，罕见事件最先被遗忘。过几代后，模型只剩下平均值与主流样貌，最终变得平庸、单一、甚至错误。

此过程就像一场由模型自己发动的资料中毒 (self-poisoning)。最终的结果，是模型不再理解语言与现实，输出变成重复的胡言乱语。

史丹佛论文：真实资料持续参与，AI 就不会崩坏

然而，2024 年 4 月史丹佛大学与 Constellation 团队发表的论文〈Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data〉，带来了更乐观的答案。他们重现了牛津团队的实验，但提出新的训练策略：让资料累积而非替换。也就是说，新一代 AI 不丢弃旧的人类资料，而是持续叠加、融合人类与 AI 生成的内容。

结果显示若每次训练都以新合成资料取代旧资料，模型表现会线性恶化。但若保留原始资料并持续累积，模型误差会逐渐趋于稳定，甚至停止恶化。他们在语言模型 (GPT-2、Llama 2)、影像生成 (VAE)、以及分子生成 (Diffusion model) 上反复验证，皆得到一致结论：只要真实资料仍持续参与，AI 就不会崩坏。

研究者在理论上也证明：当资料累积时，模型误差的上限是有限的，不会无限膨胀。这意味着 AI 的「近亲通婚」不是命中注定，只要我们不切断与人类真实资料的连结。

AI 也有哈布斯堡现象，自我参照回圈如同近亲通婚

曾任 Google 软体工程师的 iKala 创办人程世嘉，用人类历史上知名的哈布斯堡家族来形容这一现象。欧洲历史上知名的哈布斯堡王朝，为了维护血统纯正，用近亲联姻的方式将财富、权力锁在家族内部。结果就是出现知名的「哈布斯堡下巴」，但这只是遗传问题的冰山一角。各种遗传疾病、癫痫、智力缺陷甚至高夭折率都是哈布斯堡家族的诅咒，末代国王卡洛斯二世因此身患多种疾病，终身无后。

程世嘉用更具体的案例来解释，原本是一幅充满了细节、甚至有小瑕疵的风景画。画家风格、细节、笔触、瑕疵等其实就代表基因多样性。第一次影印时，AI 生成影本 (合成数据)。这时影本 99.9% 接近原版。但是，AI 是一个模型，它会从中取平均值，平滑处理瑕疵 (代表罕见知识)，并稍微强化最常见的特征 (主流观点)。下一代从中学习，又取平均值，这就是自我参照回圈。

这篇文章剑桥研究：2026 年人类资料将被 LLM 学习殆尽，AI 恐因「哈布斯堡现象」崩坏最早出现于链新闻 ABMedia。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。