Nature 重磅论文:用 AI 生成的数据训练 AI,会让大模型崩溃
文章摘要
【关 键 词】 AI风险、数据污染、模型崩溃、训练算法、数据质量
最新研究揭示了使用人工智能(AI)生成的数据训练AI模型可能带来的风险。研究发现,如果AI模型使用自动生成的数据进行自我训练,可能会导致模型崩溃,即模型性能严重退化,最终输出内容变得毫无意义。这种现象被称为“模型崩溃”,在大型语言模型(LLM)、变分自编码器(VAE)和高斯混合模型(GMM)中都可能发生。
研究指出,随着技术的发展,高质量数据变得越来越重要。然而,当前许多AI模型的训练依赖于从互联网上抓取的数据,这些数据很可能已经被前辈模型生成的内容所污染。如果一个模型的训练数据大部分来自前代模型生成的文本,随着版本的迭代,模型的性能可能会逐渐下降。
实验表明,当模型使用前代模型生成的数据进行训练时,模型的输出会逐渐变得前言不搭后语,出现事实错误,甚至完全胡言乱语。这种现象被称为“模型崩溃”,类似于近亲繁殖产生的低质量后代。研究者警告,如果大模型在AI生成内容的重压下崩溃,这将对它们的可信度造成严重打击。
模型崩溃的原因包括统计近似误差、函数表达误差和函数近似误差。这些误差在多代模型中逐渐累积,导致模型偏离原始模型。研究者通过数学模型量化了这些误差来源,并发现模型崩溃是一个普遍现象。
为了缓解模型崩溃,研究者建议对AI生成的数据进行严格过滤,例如在每一代模型的训练数据中保留一定比例的原始数据,使用多样化的数据来源,或者研究更鲁棒的训练算法。此外,科技公司已经部署了嵌入“水印”的技术,以便将AI生成的内容从数据集中剔除。
这项研究提醒我们,真实、高质量的数据对于AI的发展至关重要。随着AI技术的不断进步,我们需要更加重视数据的质量,避免模型崩溃的风险。同时,这也意味着人类创造的数据将变得更加宝贵,因为它们能够为AI模型提供更真实、更可靠的训练材料。
原文和模型
【原文链接】 阅读原文 [ 5334字 | 22分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★