Nature封面：AI训练AI，越训越离谱

AIGC动态1年前 (2024)发布 almosthuman2014

2,189 0 0

文章摘要

【关键词】 AI模型崩溃、数据训练问题、模型退化、原始数据重要、AI公平性

最新研究在《自然》杂志上发表，指出使用AI生成的数据训练大型模型可能导致模型崩溃。牛津大学等机构的研究表明，过度依赖自动生成的数据会使AI模型在几代内退化成胡言乱语。研究强调了原始数据源和数据过滤的重要性，以避免自我训练导致的模型崩溃。

模型崩溃是指AI模型在生成的数据上过度训练，导致不可逆转的退化。大型语言模型（LLM）需要大量数据训练，但如果忽略部分数据，模型可能只针对部分数据训练，最终导致崩溃。崩溃分为早期和后期阶段，早期模型在少数数据上表现下降，后期则完全崩溃。

模型崩溃的主要原因包括统计近似误差、函数表达误差和函数逼近误差。这些误差在几代模型中累积，导致与原始模型的偏差。研究还发现，即使原数据保留，模型崩溃仍可能发生，因为模型会逐渐忘记真实数据中的信息。

语言模型中的模型崩溃现象普遍存在。通常，LLM使用预训练模型初始化，然后微调以适应下游任务。研究探讨了使用其他模型生成的数据进行连续微调时会发生什么。实验表明，即使原数据一直保留，模型崩溃现象仍会发生。

互联网上充斥着AI生成的内容，这使得区分真实数据变得困难。AI生成文本的速度远超人类，引发对模型崩溃的担忧。模型崩溃可能导致生成式AI的公平性问题，忽略训练数据中的不常见元素，减少少数群体或观点的代表性。

为避免模型崩溃，研究建议访问原始数据源并在递归训练的模型中仔细过滤数据。AI社区应协调合作，追踪输入到模型中的信息来源，以保持模型的准确性。大型科技公司也在采取措施减少AI生成内容的影响，如谷歌调整算法降低恶意内容的优先级。

原文和模型

【原文链接】 阅读原文 [ 2833字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # AI公平性 # AI模型崩溃 # 原始数据重要 # 数据训练问题 # 模型退化

文章版权归作者所有，未经允许请勿转载。

合成数据的前景与风险

AI前线

1,135

Nature封面：AI训AI，越训越傻

量子位

2,240

北大教授公开质疑天才少女，涟水主动割席阿里巴巴

admin

2,246

创下历史！AI巨头英伟达以3.34万亿美元市值超过微软、苹果，成为全球第一｜钛媒体AGI

钛媒体AGI

2,335

机器人界「Sora」来了！清华、星动纪元开源首个AIGC机器人大模型，入选ICML2025 Spotlight

机器之心

961

大模型混入0.001%假数据就「中毒」，成本仅5美元！NYU新研究登Nature子刊

新智元

833

暂无评论

暂无评论...

Nature封面：AI训练AI，越训越离谱

文章摘要

原文和模型

字节大模型同传智能体，一出手就是媲美人类的同声传译水平

C 端太卷，转战企业级应用，大模型与业务场景之间的差距到底有多大？

相关文章

暂无评论

热门网址

热门文章

Nature封面：AI训练AI，越训越离谱

文章摘要

原文和模型

字节大模型同传智能体，一出手就是媲美人类的同声传译水平

C 端太卷，转战企业级应用，大模型与业务场景之间的差距到底有多大？

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章