拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

AIGC动态1年前 (2024)发布 almosthuman2014

2,651 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

文章摘要

这篇文章介绍了一系列关于图像编辑的研究成果，其中包括了 DragGAN、DragDiffusion 和 StableDrag 三个项目。首先介绍了 DragGAN 项目，该项目通过拖拽鼠标实现了图片的实时编辑，受到了AI领域的关注。接着介绍了新加坡国立大学和字节跳动推出的 DragDiffusion 项目，该项目利用大规模预训练扩散模型提升了基于点的交互式编辑效果。然后提到了南京大学和腾讯的研究者提出的 StableDrag 项目，该项目通过判别式点跟踪和基于置信的潜在增强策略构建了一个更加稳定和精确的拖拽编辑框架。StableDrag 方法实例化了两种图像编辑模型：StableDrag-GAN 和 StableDrag-Diff，并在DragBench上进行了广泛评估，结果显示出更加稳定的拖拽效果。

在方法介绍部分，文章详细介绍了 StableDrag 项目的判别点跟踪和置信动作监督两个关键技术。判别点跟踪算法通过卷积层的权重提供点分类得分，实现更准确的点跟踪。置信动作监督策略则根据置信度得分来调整监督策略，保证优化的潜在变量质量。实验结果展示了 StableDrag 方法在编辑准确性和内容一致性方面的潜力，通过定性和定量评估验证了其有效性。

最后，文章提到了研究者基于PyTorch实现了 StableDrag-GAN 和 StableDrag-Diff，并在DragBench基准上进行了定量评估，结果显示 StableDrag-Diff 在不同优化步骤下始终优于 DragDiffusion。消融实验进一步验证了 StableDrag 方法的有效性，包括置信动作监督、判别点跟踪和跟踪模块的实用性。整体而言，StableDrag 方法通过创新的技术设计实现了更加稳定和精确的图像编辑效果，为图像处理领域带来了新的可能性。