ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

AIGC动态1年前 (2024)发布 QbitAI

2,582 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

【关键词】 LayerDiffusion、透明图像生成、潜在透明度、ControlNet

LayerDiffusion 是ControlNet作者最新提出的一种方法，它允许大规模预训练的潜在扩散模型（如Stable Diffusion）生成透明图像。这项技术通过在潜在图像上添加精心设计的小扰动（offset），并编码为一个额外的通道，与RGB通道一起构成完整的潜在图像。通过这种方法，任何潜在扩散模型都可以被转换为透明图像生成器。与传统抠图方法相比，LayerDiffusion在生成过程中直接编码透明度，并且能够产生高质量的结果。

这项研究的核心是一种叫做潜在透明度的方法，它允许在不破坏预训练潜在扩散模型的潜在分布的前提下，为模型添加透明度。作者训练了两个独立的神经网络模型：潜在透明度编码器和潜在透明度解码器，以实现透明度的编码和解码。此外，作者还提出了一种“无害性”度量，以确保添加的潜在透明度不会破坏预训练模型的潜在分布。

LayerDiffusion与传统抠图的区别主要在于：它是原生的透明图像生成方法，直接在生成过程中考虑并编码透明度信息；在潜在空间中进行操作，而不是像素空间；使用大规模数据集进行训练；提供了更高的灵活性和控制能力；在质量上通常优于传统抠图方法。

这项研究的作者之一是张吕敏，他在斯坦福大学攻读博士，并且是ControlNet的发明人。尽管LayerDiffusion在GitHub中尚未开源，但它已经吸引了大量的关注。