CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

AIGC动态9个月前发布 almosthuman2014
1,453 0 0
CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

 

文章摘要


【关 键 词】 扩散模型奇点问题微信视觉团队中山大学SingDiffusion

扩散模型在图像生成方面的优秀表现引领了生成式模型的新纪元。

然而,扩散模型在理论上存在一些问题,如采样时间端点处的奇点问题,以及由此导致的平均灰度等影响生成图像质量的问题。

为了解决这些问题,微信视觉团队中山大学合作,提出了一个即插即用的方法——SingDiffusion,有效解决了初始时刻的采样问题,显著提升了现有扩散模型的生成能力。

扩散模型在多模态内容生成任务中取得了显著的成功,包括图像、音频、文本和视频等生成。

这些模型的成功建模大多依赖于一个假设,即扩散过程的逆过程也符合高斯特性。

然而,这一假设并没有得到充分证明。

特别是在端点处,即 t=0 或 t=1,会出现奇点问题,限制了现有方法对奇点处采样的研究。

微信视觉团队与中山大学合作,从理论和实践两个方面展开了深入探究。

首先,该团队提出了一个包含奇点时刻逆过程近似高斯分布的误差上界,为后续研究提供了理论基础。

基于这一理论保障,团队对奇点处的采样进行了研究,并得出了两个重要的结论:1)t=1 处的奇点可以通过求取极限转化为可去奇点,2)t=0 处的奇点是扩散模型的固有特性,不需要规避。

基于这些结论,该团队提出了一个即插即用的方法:SingDiffusion,用于解决扩散模型在初始时刻采样的问题。

SingDiffusion模块可以无缝应用到现有的扩散模型中,显著地解决了平均灰度值的问题。

在不使用无分类器指引技术的情况下,SingDiffusion能够显著提升当前方法的生成质量,特别是在应用于Stable Diffusion1.5(SD-1.5)后,其生成的图像质量更是提升了33%。

此外,该研究还在附录中探讨了DDIM,SDE,ODE中的奇点问题。

并且,该研究还展示了所提出方法在不同CIVITAI预训练模型下的泛化能力。

可以看出,该研究所提出的方法仅需进行一次训练,即可轻松地应用到已有的扩散模型中,解决平均灰度问题。

最后,该研究所提出的方法还能够无缝地应用到预训练的ControlNet模型上,有效解决ControlNet的平均灰度问题。

原文和模型


【原文链接】 阅读原文 [ 2755字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...