牛津剑桥「投毒」AI失败9次登Nature封面，引爆学术圈激辩！AI训AI能否打破崩溃魔咒？

1,069 0 0

文章摘要

牛津、剑桥、帝国理工和多伦多大学等机构的研究人员在Nature杂志上发表了一篇关于人工智能（AI）模型崩溃的论文，引发了学术界和AI社区的广泛关注和讨论。论文指出，如果在AI训练过程中不加区分地使用AI生成的合成数据，会导致模型性能下降甚至崩溃。这一现象被称为AI的“近亲繁殖”问题。

一些学者认为，问题的核心不在于合成数据本身，而在于数据质量。即使使用人工数据，如果质量不佳，结果同样会受到影响。有观点认为，研究者可能故意采用了与实际操作不匹配的方法，以吸引公众关注。马毅教授指出，当前许多研究缺乏科学思想和方法，只是重新发现一些常识。

为避免模型崩溃，Scale AI的CEO Alexandr Wang认为，混合数据是未来发展方向。他提出，在合成数据过程中，应结合真实世界数据、人类专家参与和形式逻辑引擎等新信息来源。使用无信息增益的合成数据训练模型的开发者，最终会发现模型变得越来越奇怪和愚蠢。

Meta、纽约大学和北京大学的研究人员提出了一种通过人类或较弱模型的“排序-修剪反馈”方法，可以恢复甚至超越模型原来的性能。他们认为，区分一个示例的好坏比从头生成一个高质量样本容易得多。通过合成数据反馈，可以防止模型崩溃。

斯坦福大学的博士生Rylan Schaeffer表示，模型崩溃通常出现在研究人员故意采用与实际操作不匹配的方法时。他所在的研究团队发现，用每一代的合成数据替换原始真实数据会导致模型崩溃。但如果将连续几代的合成数据与原始真实数据一起积累，可以避免模型崩溃。

总之，正确使用合成数据是避免AI模型崩溃的关键。混合数据、强化学习和真实数据与合成数据的结合是未来AI发展的重要方向。研究人员应关注数据质量，避免采用与实际操作不匹配的方法，以确保AI模型的稳定性和可靠性。

原文和模型

【原文链接】 阅读原文 [ 1980字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # AI崩溃 # 合成数据 # 数据质量 # 模型稳定性 # 混合数据

文章版权归作者所有，未经允许请勿转载。

保时捷押注、估值 60 亿美元，这家自动驾驶公司做对了什么？

极客公园

1,144

Nature 重磅论文：用 AI 生成的数据训练 AI，会让大模型崩溃

Founder Park

1,191

AI训AI惨遭投毒9次大崩溃，牛津剑桥等惊天发现登Nature封面！

新智元

1,169

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢！

新智元

1,811

深度｜大模型真的在吞噬人类的一切数据吗？

硅星人Pro

892

Databricks收购Lilac AI ，以简化生成式AI的非结构化数据评估

AIGC开放社区

1,118

暂无评论

暂无评论...

牛津剑桥「投毒」AI失败9次登Nature封面，引爆学术圈激辩！AI训AI能否打破崩溃魔咒？

文章摘要

原文和模型

Nature封面：AI训AI，越训越傻

芯片巨头，新豪赌

相关文章

暂无评论

热门网址

热门文章

牛津剑桥「投毒」AI失败9次登Nature封面，引爆学术圈激辩！AI训AI能否打破崩溃魔咒？

文章摘要

原文和模型

Nature封面：AI训AI，越训越傻

芯片巨头，新豪赌

相关文章

暂无评论

极客训练营-扫码领取免费材料

白日梦AI-视频创作

豆包MarsCode

热门网址

热门文章