CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise

AIGC动态1年前 (2024)发布 aitechtalk

2,427 0 0

CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise

文章摘要

【关键词】 图像编辑、扩散模型、交互式控制、语义传播、DragNoise

何盛烽团队与华南师范大学合作，在CVPR 2024上发表了一项创新的研究成果《Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation》。这项工作通过扩散模型的语义传播，实现了一种交互式的点控制图像编辑技术，名为DragNoise。该技术允许用户通过简单地在图像上标记几个点，来快速精确地编辑真实或生成的图片，满足了用户对图像编辑的高效和灵活性需求。

DragNoise技术能够轻松快速地处理内容填充、擦除、转脸和姿势控制等编辑任务。用户只需在想要编辑的区域放置一个红点，并在目标位置放置一个蓝点，DragNoise便能将红点的内容拖拽到蓝点位置。与现有的SOTA方法DragDiffusion相比，DragNoise在保留图片原有信息的同时，实现了更精准快速的编辑效果。

在图像编辑领域，DragGAN和DragDiffusion是两个重要的里程碑。DragGAN基于StyleGAN2生成器，通过将拖拽编辑反演至latent code来生成拖动结果图。然而，由于GAN的生成效果局限性，DragGAN难以获得高质量的编辑结果，并且难以保留图片的全局内容。DragDiffusion则利用了大规模预训练扩散模型的优势，通过优化噪声latent map来控制去噪过程生成编辑后的图片，取得了显著进步。尽管如此，DragDiffusion在梯度消失和保持图像保真度方面仍存在问题。

DragNoise的核心思想是“middle-block replacement”，即从某个去噪时间步开始，将不同层的特征复制到所有后续timestep的对应层。这种操作使得bottleneck特征成为最优的扩散语义表示，适合于高效编辑。通过操纵bottleneck特征，可以平滑地传播到后面的去噪步骤，确保结果图像扩散语义的完整性，并有效避免梯度消失问题。

DragNoise的编辑过程包括两个步骤：扩散语义优化和扩散语义传播。首先，在训练高级语义的timestep进行扩散语义优化，优化后的bottleneck特征学习到预期的拖拽效果。然后，通过替换相应的bottleneck特征，将优化后的特征传播到所有后续时间步，避免了冗余的特征优化，增强了操纵效果。

在拖拽编辑数据集DragBench和不同的示例图像上进行的实验表明，DragNoise在编辑效率和灵活性方面表现出色，显著减少了优化步骤，并在定量实验中达到了SOTA水平。与DragDiffusion相比，DragNoise展现了更好的编辑效果和稳定性。研究团队还提供了Arxiv链接和GitHub代码库，以供进一步研究和应用。