文章摘要
【关 键 词】 表征学习、REPA方法、视觉表征、扩散模型、训练效率
纽约大学谢赛宁团队的最新研究强调了在视觉领域生成模型中表征学习的重要性。该团队通过引入一种新的正则化方法REPA(REPresentation Alignment),显著提升了扩散模型的训练效率和生成质量。REPA的核心思想是将扩散模型中的表征与外部更强大的视觉表征进行对齐,从而提高模型性能。
研究发现,即使目标是生成像素,包含特征预测损失也是有益的,以便解码器的内部表示可以基于预训练的视觉编码器进行特征预测。通过在损失函数中添加相似度最大化项,REPA能将SiT/DiT的训练速度提升近18倍,并在ImageNet 256×256上实现了最先进的FID=1.42。
论文还从统一的随机插值视角回顾了基于流的模型SiT和基于去噪的扩散模型DiT,并提出了REPA方法来缩小扩散模型和自监督学习方法之间的表征差距。实验结果表明,REPA在提升视觉缩放、模型规模和表征质量方面具有可扩展性,并且能显著提高训练效率和生成质量。
该研究的第一作者Sihyun Yu是KAIST人工智能专业的博士生,他的研究集中在减少大型生成模型训练的内存和计算负担,特别是在大规模视频生成方面。这项研究得到了纽约大学AI领域的另一位著名学者Yann LeCun的关注和转发,进一步证明了其在学术界的影响力。
原文和模型
【原文链接】 阅读原文 [ 2703字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...