大模型「强崩溃」！Meta新作：合成数据有「剧毒」，1%即成LLM杀手

2,218 0 0

文章摘要

近期，来自Meta、纽约大学和加州大学洛杉矶分校（UCLA）的研究团队在一篇论文中探讨了合成数据对大型语言模型（LLM）的影响。研究发现，即使合成数据在总数据集中的比例仅为1%，也可能引发所谓的“模型崩溃”，即模型性能随时间递减，最终完全失效。这一现象在参数规模较大的模型中尤为明显，如ChatGPT和Llama等。

模型崩溃的机制在于，随着合成数据的不断迭代训练，模型开始过度拟合合成数据中的模式，这些模式可能无法代表现实世界的多样性和变化性。这种反馈循环导致模型强化了合成数据中的错误、偏差或过度简化，从而损害了模型对现实世界的准确表示能力和泛化能力。

研究通过理论分析和实验验证了这一现象，并探讨了如何通过策略性地混合真实数据和合成数据来缓解模型崩溃。实验结果表明，即使是高质量的合成数据，使用较大的模型也并非总是最佳实践。此外，网络的宽度也会影响模型崩溃的程度。

研究还尝试了两种数据混合方法：加权单步数据混合和动态/多步数据混合。结果显示，加权单步数据混合无法解决模型崩溃问题，而动态/多步数据混合虽然在理论上恢复了scaling law，但在实践中可能不可行，因为它需要大量的真实数据和清晰的区分真实与合成数据的能力。

总体而言，这项研究系统地描述了真实数据和合成数据混合训练模型的效果，表明模型崩溃是一种稳健的现象，即使在合成数据比例很小的情况下也会发生。这一发现对于未来如何应用合成数据技术具有重要影响。