Nature 重磅论文：用 AI 生成的数据训练 AI，会让大模型崩溃

AIGC动态1年前 (2024)发布 Founder Park

2,764 0 0

文章摘要

最新研究揭示了使用人工智能（AI）生成的数据训练AI模型可能带来的风险。研究发现，如果AI模型使用自动生成的数据进行自我训练，可能会导致模型崩溃，即模型性能严重退化，最终输出内容变得毫无意义。这种现象被称为“模型崩溃”，在大型语言模型（LLM）、变分自编码器（VAE）和高斯混合模型（GMM）中都可能发生。

研究指出，随着技术的发展，高质量数据变得越来越重要。然而，当前许多AI模型的训练依赖于从互联网上抓取的数据，这些数据很可能已经被前辈模型生成的内容所污染。如果一个模型的训练数据大部分来自前代模型生成的文本，随着版本的迭代，模型的性能可能会逐渐下降。

实验表明，当模型使用前代模型生成的数据进行训练时，模型的输出会逐渐变得前言不搭后语，出现事实错误，甚至完全胡言乱语。这种现象被称为“模型崩溃”，类似于近亲繁殖产生的低质量后代。研究者警告，如果大模型在AI生成内容的重压下崩溃，这将对它们的可信度造成严重打击。

模型崩溃的原因包括统计近似误差、函数表达误差和函数近似误差。这些误差在多代模型中逐渐累积，导致模型偏离原始模型。研究者通过数学模型量化了这些误差来源，并发现模型崩溃是一个普遍现象。

为了缓解模型崩溃，研究者建议对AI生成的数据进行严格过滤，例如在每一代模型的训练数据中保留一定比例的原始数据，使用多样化的数据来源，或者研究更鲁棒的训练算法。此外，科技公司已经部署了嵌入“水印”的技术，以便将AI生成的内容从数据集中剔除。

这项研究提醒我们，真实、高质量的数据对于AI的发展至关重要。随着AI技术的不断进步，我们需要更加重视数据的质量，避免模型崩溃的风险。同时，这也意味着人类创造的数据将变得更加宝贵，因为它们能够为AI模型提供更真实、更可靠的训练材料。