牛津剑桥「投毒」AI失败9次登Nature封面，引爆学术圈激辩！AI训AI能否打破崩溃魔咒？

AIGC动态1年前 (2024)发布 AIera

2,805 0 0

牛津剑桥「投毒」AI失败9次登Nature封面，引爆学术圈激辩！AI训AI能否打破崩溃魔咒？

文章摘要

牛津、剑桥、帝国理工和多伦多大学等机构的研究人员在Nature杂志上发表了一篇关于人工智能（AI）模型崩溃的论文，引发了学术界和AI社区的广泛关注和讨论。论文指出，如果在AI训练过程中不加区分地使用AI生成的合成数据，会导致模型性能下降甚至崩溃。这一现象被称为AI的“近亲繁殖”问题。

一些学者认为，问题的核心不在于合成数据本身，而在于数据质量。即使使用人工数据，如果质量不佳，结果同样会受到影响。有观点认为，研究者可能故意采用了与实际操作不匹配的方法，以吸引公众关注。马毅教授指出，当前许多研究缺乏科学思想和方法，只是重新发现一些常识。

为避免模型崩溃，Scale AI的CEO Alexandr Wang认为，混合数据是未来发展方向。他提出，在合成数据过程中，应结合真实世界数据、人类专家参与和形式逻辑引擎等新信息来源。使用无信息增益的合成数据训练模型的开发者，最终会发现模型变得越来越奇怪和愚蠢。

Meta、纽约大学和北京大学的研究人员提出了一种通过人类或较弱模型的“排序-修剪反馈”方法，可以恢复甚至超越模型原来的性能。他们认为，区分一个示例的好坏比从头生成一个高质量样本容易得多。通过合成数据反馈，可以防止模型崩溃。

斯坦福大学的博士生Rylan Schaeffer表示，模型崩溃通常出现在研究人员故意采用与实际操作不匹配的方法时。他所在的研究团队发现，用每一代的合成数据替换原始真实数据会导致模型崩溃。但如果将连续几代的合成数据与原始真实数据一起积累，可以避免模型崩溃。

总之，正确使用合成数据是避免AI模型崩溃的关键。混合数据、强化学习和真实数据与合成数据的结合是未来AI发展的重要方向。研究人员应关注数据质量，避免采用与实际操作不匹配的方法，以确保AI模型的稳定性和可靠性。

原文和模型

【原文链接】 阅读原文 [ 1980字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # AI崩溃 # 合成数据 # 数据质量 # 模型稳定性 # 混合数据

文章版权归作者所有，未经允许请勿转载。

深度｜大模型真的在吞噬人类的一切数据吗？

硅星人Pro

2,246

清华SuperBench全球测评出炉，Claude 3拿下多个冠军！合成数据才是人类未来？

新智元

2,221

强化学习Scaling Law错了？无需蒸馏，数据量只要1/6，效果还更好

新智元

1,499

保时捷押注、估值 60 亿美元，这家自动驾驶公司做对了什么？

极客公园

2,531

数据即将耗尽？大型 AI 公司中没有人会感到恐慌

AI前线

1,730

重磅！微软开源最强小模型Phi-4，超GPT-4o、可商用

AIGC开放社区

1,166

暂无评论

暂无评论...

牛津剑桥「投毒」AI失败9次登Nature封面，引爆学术圈激辩！AI训AI能否打破崩溃魔咒？

文章摘要

原文和模型

Nature封面：AI训AI，越训越傻

芯片巨头，新豪赌

相关文章

暂无评论

热门网址

热门文章

牛津剑桥「投毒」AI失败9次登Nature封面，引爆学术圈激辩！AI训AI能否打破崩溃魔咒？

文章摘要

原文和模型

Nature封面：AI训AI，越训越傻

芯片巨头，新豪赌

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章