CVPR 2024｜生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

AIGC动态1年前 (2024)发布 almosthuman2014

2,978 0 0

CVPR 2024｜生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

文章摘要

【关键词】 扩散模型、奇点问题、微信视觉团队、中山大学、SingDiffusion

扩散模型在图像生成方面的优秀表现引领了生成式模型的新纪元。

然而，扩散模型在理论上存在一些问题，如采样时间端点处的奇点问题，以及由此导致的平均灰度等影响生成图像质量的问题。

为了解决这些问题，微信视觉团队与中山大学合作，提出了一个即插即用的方法——SingDiffusion，有效解决了初始时刻的采样问题，显著提升了现有扩散模型的生成能力。

扩散模型在多模态内容生成任务中取得了显著的成功，包括图像、音频、文本和视频等生成。

这些模型的成功建模大多依赖于一个假设，即扩散过程的逆过程也符合高斯特性。

然而，这一假设并没有得到充分证明。

特别是在端点处，即 t=0 或 t=1，会出现奇点问题，限制了现有方法对奇点处采样的研究。

微信视觉团队与中山大学合作，从理论和实践两个方面展开了深入探究。

首先，该团队提出了一个包含奇点时刻逆过程近似高斯分布的误差上界，为后续研究提供了理论基础。

基于这一理论保障，团队对奇点处的采样进行了研究，并得出了两个重要的结论：1）t=1 处的奇点可以通过求取极限转化为可去奇点，2）t=0 处的奇点是扩散模型的固有特性，不需要规避。

基于这些结论，该团队提出了一个即插即用的方法：SingDiffusion，用于解决扩散模型在初始时刻采样的问题。

SingDiffusion模块可以无缝应用到现有的扩散模型中，显著地解决了平均灰度值的问题。

在不使用无分类器指引技术的情况下，SingDiffusion能够显著提升当前方法的生成质量，特别是在应用于Stable Diffusion1.5（SD-1.5）后，其生成的图像质量更是提升了33%。

此外，该研究还在附录中探讨了DDIM，SDE，ODE中的奇点问题。

并且，该研究还展示了所提出方法在不同CIVITAI预训练模型下的泛化能力。

可以看出，该研究所提出的方法仅需进行一次训练，即可轻松地应用到已有的扩散模型中，解决平均灰度问题。

最后，该研究所提出的方法还能够无缝地应用到预训练的ControlNet模型上，有效解决ControlNet的平均灰度问题。

原文和模型

【原文链接】 阅读原文 [ 2755字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

OpenAI GPT-4

GPT-4是OpenAI公司开发的自然...

# AIGC动态 # 图像生成 # 大模型 # 视频生成 # 音频生成 # Azure # gpt-4-32k # SingDiffusion # 中山大学 # 奇点问题 # 微信视觉团队 # 扩散模型 # 机器之心

文章版权归作者所有，未经允许请勿转载。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

机器之心

2,322

国内公司有望做出Sora吗？这支清华系大模型团队给出了希望

机器之心

1,973

首个基于SSM-Transformer混合架构，开源商业大模型Jamba

AIGC开放社区

1,975

RNN效率媲美Transformer，谷歌新架构两连发：同等规模强于Mamba

机器之心

2,041

“弱智贴吧”的数据，居然是最强中文语料库

AIGC开放社区

1,892

谁将替代 Transformer？

AI科技评论

2,517

暂无评论

暂无评论...

CVPR 2024｜生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

文章摘要

原文和模型

开源大模型王座再易主，1320亿参数DBRX上线，基础、微调模型都有

一张图即出AI视频！谷歌全新扩散模型，让人物动起来

相关文章

暂无评论

热门网址

热门文章

CVPR 2024｜生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

文章摘要

原文和模型

开源大模型王座再易主，1320亿参数DBRX上线，基础、微调模型都有

一张图即出AI视频！谷歌全新扩散模型，让人物动起来

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章