Nature封面：AI训AI，越训越傻

AIGC动态1年前 (2024)发布 QbitAI

2,408 0 0

文章摘要

【关键词】 AI模型崩溃、合成数据风险、模型训练误差、技术挑战、数据质量影响

牛津、剑桥等学校机构的研究人员发现，使用合成数据训练的大型人工智能（AI）模型可能会崩溃。这一发现被选为《Nature》杂志的封面故事。目前，许多科技公司都在使用合成数据来解决数据短缺问题，但这项研究结果给整个行业带来了挑战。

研究人员以Meta公司的OPT-125m模型为例，测试了其在回答有关中世纪建筑的问题时的表现。他们发现，在经过多次微调后，模型开始产生错误的回答，甚至出现了与问题无关的内容。论文的主要作者表示，他们曾预料到合成数据可能会对模型造成误差，但没想到模型的恶化速度会如此之快。

研究团队定义了模型崩溃的概念，即模型生成的内容会污染下一代的训练数据集，导致新一代模型更容易误解现实。模型崩溃分为早期和晚期两种情况。早期模型崩溃表现为模型开始丢失一些低概率事件的信息，而晚期模型崩溃则表现为模型收敛到与原始分布几乎没有相似之处的状态。这一过程的发生与模型设计、学习过程和数据质量密切相关。

研究指出，导致大模型偏离原始模型的主要有三种误差：统计近似误差、函数表达性误差和函数近似误差。统计近似误差是由于样本数量有限而产生的，随着样本数量的增加而消失；函数表达性误差是由于函数近似表达能力有限而产生的；函数近似误差则是由学习过程的局限性引起的。

研究人员还评估了模型崩溃对语言模型的影响。他们选择了微调设置，即每个训练周期都从具有最新数据的预训练模型开始。通过在wikitext2数据集上对Meta的OPT-125m模型进行微调，研究人员发现，随着时间的推移，模型产生的错误会增加，导致模型遗忘数据集中的低概率事件，输出变得更加同质化。

为了缓解这一问题，杜克大学的Emily Wenger教授表示，目前还没有容易的解决方案。一些科技公司已经尝试使用“水印”技术来标记AI生成的内容，以便在训练数据中排除。然而，这需要科技公司之间的协调，因此在商业上不太可行。这意味着那些能够从互联网获取数据的公司，他们训练的模型可能更能代表现实世界，从而具有先发优势。