CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise
文章摘要
【关 键 词】 图像编辑、扩散模型、交互式控制、语义传播、DragNoise
何盛烽团队与华南师范大学合作,在CVPR 2024上发表了一项创新的研究成果《Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation》。这项工作通过扩散模型的语义传播,实现了一种交互式的点控制图像编辑技术,名为DragNoise。该技术允许用户通过简单地在图像上标记几个点,来快速精确地编辑真实或生成的图片,满足了用户对图像编辑的高效和灵活性需求。
DragNoise技术能够轻松快速地处理内容填充、擦除、转脸和姿势控制等编辑任务。用户只需在想要编辑的区域放置一个红点,并在目标位置放置一个蓝点,DragNoise便能将红点的内容拖拽到蓝点位置。与现有的SOTA方法DragDiffusion相比,DragNoise在保留图片原有信息的同时,实现了更精准快速的编辑效果。
在图像编辑领域,DragGAN和DragDiffusion是两个重要的里程碑。DragGAN基于StyleGAN2生成器,通过将拖拽编辑反演至latent code来生成拖动结果图。然而,由于GAN的生成效果局限性,DragGAN难以获得高质量的编辑结果,并且难以保留图片的全局内容。DragDiffusion则利用了大规模预训练扩散模型的优势,通过优化噪声latent map来控制去噪过程生成编辑后的图片,取得了显著进步。尽管如此,DragDiffusion在梯度消失和保持图像保真度方面仍存在问题。
DragNoise的核心思想是“middle-block replacement”,即从某个去噪时间步开始,将不同层的特征复制到所有后续timestep的对应层。这种操作使得bottleneck特征成为最优的扩散语义表示,适合于高效编辑。通过操纵bottleneck特征,可以平滑地传播到后面的去噪步骤,确保结果图像扩散语义的完整性,并有效避免梯度消失问题。
DragNoise的编辑过程包括两个步骤:扩散语义优化和扩散语义传播。首先,在训练高级语义的timestep进行扩散语义优化,优化后的bottleneck特征学习到预期的拖拽效果。然后,通过替换相应的bottleneck特征,将优化后的特征传播到所有后续时间步,避免了冗余的特征优化,增强了操纵效果。
在拖拽编辑数据集DragBench和不同的示例图像上进行的实验表明,DragNoise在编辑效率和灵活性方面表现出色,显著减少了优化步骤,并在定量实验中达到了SOTA水平。与DragDiffusion相比,DragNoise展现了更好的编辑效果和稳定性。研究团队还提供了Arxiv链接和GitHub代码库,以供进一步研究和应用。
原文和模型
【原文链接】 阅读原文 [ 1389字 | 6分钟 ]
【原文作者】 AI科技评论
【摘要模型】 gpt-4
【摘要评分】 ★★★☆☆