牛津剑桥「投毒」AI失败9次登Nature封面,引爆学术圈激辩!AI训AI能否打破崩溃魔咒?

AIGC动态5个月前发布 AIera
932 0 0
牛津剑桥「投毒」AI失败9次登Nature封面,引爆学术圈激辩!AI训AI能否打破崩溃魔咒?

 

文章摘要


【关 键 词】 AI崩溃数据质量混合数据模型稳定性合成数据

牛津、剑桥、帝国理工和多伦多大学等机构的研究人员在Nature杂志上发表了一篇关于人工智能(AI)模型崩溃的论文,引发了学术界和AI社区的广泛关注和讨论。论文指出,如果在AI训练过程中不加区分地使用AI生成的合成数据,会导致模型性能下降甚至崩溃。这一现象被称为AI的“近亲繁殖”问题。

一些学者认为,问题的核心不在于合成数据本身,而在于数据质量。即使使用人工数据,如果质量不佳,结果同样会受到影响。有观点认为,研究者可能故意采用了与实际操作不匹配的方法,以吸引公众关注。马毅教授指出,当前许多研究缺乏科学思想和方法,只是重新发现一些常识。

为避免模型崩溃,Scale AI的CEO Alexandr Wang认为,混合数据是未来发展方向。他提出,在合成数据过程中,应结合真实世界数据、人类专家参与和形式逻辑引擎等新信息来源。使用无信息增益的合成数据训练模型的开发者,最终会发现模型变得越来越奇怪和愚蠢。

Meta、纽约大学和北京大学的研究人员提出了一种通过人类或较弱模型的“排序-修剪反馈”方法,可以恢复甚至超越模型原来的性能。他们认为,区分一个示例的好坏比从头生成一个高质量样本容易得多。通过合成数据反馈,可以防止模型崩溃。

斯坦福大学的博士生Rylan Schaeffer表示,模型崩溃通常出现在研究人员故意采用与实际操作不匹配的方法时。他所在的研究团队发现,用每一代的合成数据替换原始真实数据会导致模型崩溃。但如果将连续几代的合成数据与原始真实数据一起积累,可以避免模型崩溃。

总之,正确使用合成数据是避免AI模型崩溃的关键。混合数据、强化学习和真实数据与合成数据的结合是未来AI发展的重要方向。研究人员应关注数据质量,避免采用与实际操作不匹配的方法,以确保AI模型的稳定性和可靠性。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1980字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...