一文看尽297篇文献！中科院领衔发表首篇「基于扩散模型的图像编辑」综述

AIGC动态1年前 (2024)发布 AIera

2,343 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-4-0125-preview
【摘要评分】 ★★★★★

文章摘要

本文是关于基于扩散模型的图像编辑领域的首篇综述，全面研究了图像编辑的前沿方法，并将其精炼地划分为三个大类和14个子类。这篇综述长达26页，涵盖了297篇文献，为研究者提供了一个全面的学习和参考工具。此外，文章还提出了一个新的benchmark和LMM Score指标，用于对代表性方法进行实验评估。

去噪扩散模型已成为图像生成和编辑任务的有力工具，其核心理念是学习如何逆转向图像中添加噪声的过程，从而生成高质量的样本。本文详尽概述了使用扩散模型进行图像编辑的现有方法，包括理论和实践方面，并从学习策略、用户输入条件和具体编辑任务等多个角度进行了深入分析和分类。

特别地，文章关注了图像的inpainting和outpainting，并探讨了早期的传统方法和当前的多模态条件方法。为了评估文本引导图像编辑算法的性能，提出了一个系统基准EditEval，采用了创新指标LMM Score。最后，讨论了当前的局限性，并展望了未来研究的潜在方向。

图像编辑的分类包括语义编辑、风格编辑和结构编辑三个广泛的类别，涵盖了12个具体类型。基于训练的方法、测试时微调的方法和无需训练和微调的方法是图像编辑论文的三个主要组别。此外，还探讨了这些方法使用的10种输入条件来控制编辑过程。

尽管在使用扩散模型进行图像编辑方面取得了成功，但仍存在一些挑战，如模型推理的步骤减少、高效模型的开发、复杂对象结构编辑、复杂的光照和阴影编辑以及图像编辑的非鲁棒性等。此外，对图像编辑进行准确评估也是一个挑战，需要开发更准确的评估指标。

总之，这项调查旨在系统地分类和批判性评估基于扩散模型的图像编辑研究的广泛文献，提供了一个全面的资源，综合了当前的发现，并指导了这一快速发展领域未来研究的方向。

原文信息

【原文链接】 阅读原文
【阅读预估】 4985 / 20分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。