几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling

AIGC动态7个月前发布 AIera
632 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★☆

几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling
 

文章摘要


【关 键 词】 扩散模型UNetscaling操作特征不稳定梯度消失

本文探讨了在扩散模型UNet结构的long skip connection上应用scaling操作对模型训练稳定性的影响。研究发现,适当的scaling系数可以缓解特征不稳定现象,提高模型对输入扰动的鲁棒性。此外,通过引入可学习的scaling模块(Learnable Scaling Method)或常数scaling(Constant Scaling Method),可以进一步提升模型训练的稳定性。这些发现已被NeurIPS 2023录用,相关论文和代码已公开。

摘要:
在扩散模型中,UNet结构的long skip connection通常用于连接浅层和深层特征,以避免梯度消失问题。然而,这种结构可能导致参数更新时的不稳定现象。本文通过可视化分析发现,适当的scaling操作可以缓解这种不稳定性。研究者提出了两种scaling方法:Learnable Scaling Method(LS)和Constant Scaling Method(CS)。LS方法通过引入可学习的scaling系数来自适应调整,而CS方法则使用固定常数进行scaling。实验结果表明,LS方法能有效稳定训练过程,而CS方法虽然在大多数情况下不如LS,但仍具有一定的实用价值。这些发现对于理解和改进扩散模型的训练过程具有重要意义。

原文信息


【原文链接】 阅读原文
【阅读预估】 1262 / 6分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

© 版权声明

相关文章

暂无评论

暂无评论...