Nature封面:AI训练AI,越训越离谱

Nature封面:AI训练AI,越训越离谱

 

文章摘要


【关 键 词】 AI模型崩溃数据训练问题模型退化原始数据重要AI公平性

最新研究在《自然》杂志上发表,指出使用AI生成的数据训练大型模型可能导致模型崩溃。牛津大学等机构的研究表明,过度依赖自动生成的数据会使AI模型在几代内退化成胡言乱语。研究强调了原始数据源和数据过滤的重要性,以避免自我训练导致的模型崩溃。

模型崩溃是指AI模型在生成的数据上过度训练,导致不可逆转的退化。大型语言模型(LLM)需要大量数据训练,但如果忽略部分数据,模型可能只针对部分数据训练,最终导致崩溃。崩溃分为早期和后期阶段,早期模型在少数数据上表现下降,后期则完全崩溃。

模型崩溃的主要原因包括统计近似误差、函数表达误差和函数逼近误差。这些误差在几代模型中累积,导致与原始模型的偏差。研究还发现,即使原数据保留,模型崩溃仍可能发生,因为模型会逐渐忘记真实数据中的信息。

语言模型中的模型崩溃现象普遍存在。通常,LLM使用预训练模型初始化,然后微调以适应下游任务。研究探讨了使用其他模型生成的数据进行连续微调时会发生什么。实验表明,即使原数据一直保留,模型崩溃现象仍会发生。

互联网上充斥着AI生成的内容,这使得区分真实数据变得困难。AI生成文本的速度远超人类,引发对模型崩溃的担忧。模型崩溃可能导致生成式AI的公平性问题,忽略训练数据中的不常见元素,减少少数群体或观点的代表性。

为避免模型崩溃,研究建议访问原始数据源并在递归训练的模型中仔细过滤数据。AI社区应协调合作,追踪输入到模型中的信息来源,以保持模型的准确性。大型科技公司也在采取措施减少AI生成内容的影响,如谷歌调整算法降低恶意内容的优先级。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 2833字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...