文章摘要
【关 键 词】 AI崩溃、数据质量、混合数据、模型稳定性、合成数据
牛津、剑桥、帝国理工和多伦多大学等机构的研究人员在Nature杂志上发表了一篇关于人工智能(AI)模型崩溃的论文,引发了学术界和AI社区的广泛关注和讨论。论文指出,如果在AI训练过程中不加区分地使用AI生成的合成数据,会导致模型性能下降甚至崩溃。这一现象被称为AI的“近亲繁殖”问题。
一些学者认为,问题的核心不在于合成数据本身,而在于数据质量。即使使用人工数据,如果质量不佳,结果同样会受到影响。有观点认为,研究者可能故意采用了与实际操作不匹配的方法,以吸引公众关注。马毅教授指出,当前许多研究缺乏科学思想和方法,只是重新发现一些常识。
为避免模型崩溃,Scale AI的CEO Alexandr Wang认为,混合数据是未来发展方向。他提出,在合成数据过程中,应结合真实世界数据、人类专家参与和形式逻辑引擎等新信息来源。使用无信息增益的合成数据训练模型的开发者,最终会发现模型变得越来越奇怪和愚蠢。
Meta、纽约大学和北京大学的研究人员提出了一种通过人类或较弱模型的“排序-修剪反馈”方法,可以恢复甚至超越模型原来的性能。他们认为,区分一个示例的好坏比从头生成一个高质量样本容易得多。通过合成数据反馈,可以防止模型崩溃。
斯坦福大学的博士生Rylan Schaeffer表示,模型崩溃通常出现在研究人员故意采用与实际操作不匹配的方法时。他所在的研究团队发现,用每一代的合成数据替换原始真实数据会导致模型崩溃。但如果将连续几代的合成数据与原始真实数据一起积累,可以避免模型崩溃。
总之,正确使用合成数据是避免AI模型崩溃的关键。混合数据、强化学习和真实数据与合成数据的结合是未来AI发展的重要方向。研究人员应关注数据质量,避免采用与实际操作不匹配的方法,以确保AI模型的稳定性和可靠性。
原文和模型
【原文链接】 阅读原文 [ 1980字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆