ICLR 2024 | 鸡生蛋蛋生鸡？再论生成数据能否帮助模型训练

AIGC动态1年前 (2024)发布 almosthuman2014

1,703 0 0

文章摘要

【关键词】 $ARTICLE_TAGS

随着生成模型的快速发展，如ChatGPT和扩散模型，生成数据的质量不断提高，同时模型规模的增大也导致真实数据的枯竭。这引发了学界的争论，即生成模型生成的假数据是否能够辅助学习。北大王奕森团队针对这一问题，在ICLR 2024上发表了研究论文”Do Generated Data Always Help Contrastive Learning?”，探讨了生成数据对于表示学习能力的影响。

研究团队在对比学习场景下，从理论和实验两方面分析了生成数据的影响。他们保证生成模型和表示学习都只能使用同一个真实数据集进行训练，以控制变量。研究发现，生成数据并不总是有益的，在某些情况下甚至有害。例如，将DDPM生成的数据加入CIFAR-10训练，会导致分类准确率下降超过1%。

研究指出两个关键因素影响生成数据的收益：一是真实数据和生成数据的比例，最优比例在10:1附近；二是训练策略的设计，需要随着数据集扩充而降低数据增广的强度。研究还从自监督理论出发，解释了这些现象的内在原因，并分析了数据量、数据质量与数据增广强度之间的权衡。

研究还探讨了数据增广与数据扩充的权衡。数据增广通过随机增强原始样本，而数据扩充则是扩大原始数据集的大小。研究表明，当数据扩充提供足够的数据时，可以减弱数据增广，从而减少因图像语义信息改变带来的误差。

论文还从增广图的角度建模对比学习，分析了数据扩充和数据增广对下游泛化误差上界的影响。研究表明，数据扩充和数据增广在对比学习中存在互补作用，数据扩充后，最优数据增广强度减小。

基于这些发现，论文提出了自适应的数据扩充方法Adaptive Inflation（AdaInf），根据生成数据的质量和大小动态调整对比学习算法。实验结果显示，AdaInf在不同的对比学习模型和数据集上性能显著好于没有数据扩充或直接进行数据扩充的方法。此外，AdaInf在数据匮乏的场景下也能获得明显的提升。

总结来说，北大王奕森团队的研究表明，生成数据在对比学习中的作用取决于多种因素，包括数据比例、训练策略和数据增广强度。通过适当的调整和权衡，生成数据可以有效地辅助表示学习，但这需要精心设计的方法，如AdaInf，以实现最佳性能。