CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题
文章摘要
【关 键 词】 扩散模型、奇点问题、微信视觉团队、中山大学、SingDiffusion
扩散模型在图像生成方面的优秀表现引领了生成式模型的新纪元。
然而,扩散模型在理论上存在一些问题,如采样时间端点处的奇点问题,以及由此导致的平均灰度等影响生成图像质量的问题。
为了解决这些问题,微信视觉团队与中山大学合作,提出了一个即插即用的方法——SingDiffusion,有效解决了初始时刻的采样问题,显著提升了现有扩散模型的生成能力。
扩散模型在多模态内容生成任务中取得了显著的成功,包括图像、音频、文本和视频等生成。
这些模型的成功建模大多依赖于一个假设,即扩散过程的逆过程也符合高斯特性。
然而,这一假设并没有得到充分证明。
特别是在端点处,即 t=0 或 t=1,会出现奇点问题,限制了现有方法对奇点处采样的研究。
微信视觉团队与中山大学合作,从理论和实践两个方面展开了深入探究。
首先,该团队提出了一个包含奇点时刻逆过程近似高斯分布的误差上界,为后续研究提供了理论基础。
基于这一理论保障,团队对奇点处的采样进行了研究,并得出了两个重要的结论:1)t=1 处的奇点可以通过求取极限转化为可去奇点,2)t=0 处的奇点是扩散模型的固有特性,不需要规避。
基于这些结论,该团队提出了一个即插即用的方法:SingDiffusion,用于解决扩散模型在初始时刻采样的问题。
SingDiffusion模块可以无缝应用到现有的扩散模型中,显著地解决了平均灰度值的问题。
在不使用无分类器指引技术的情况下,SingDiffusion能够显著提升当前方法的生成质量,特别是在应用于Stable Diffusion1.5(SD-1.5)后,其生成的图像质量更是提升了33%。
此外,该研究还在附录中探讨了DDIM,SDE,ODE中的奇点问题。
并且,该研究还展示了所提出方法在不同CIVITAI预训练模型下的泛化能力。
可以看出,该研究所提出的方法仅需进行一次训练,即可轻松地应用到已有的扩散模型中,解决平均灰度问题。
最后,该研究所提出的方法还能够无缝地应用到预训练的ControlNet模型上,有效解决ControlNet的平均灰度问题。
原文和模型
【原文链接】 阅读原文 [ 2755字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★