一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二

AIGC动态16小时前发布 AIera
67 0 0
一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二

 

文章摘要


【关 键 词】 图像编辑大模型低成本高质量开源

基于文本指令的图像编辑任务一直是图像生成和编辑领域的热点,近年来随着Gemini、GPT-4o等商业大模型的推出,这一领域的技术水平不断提升。然而,传统方法通常依赖于大量的训练数据和计算资源,这限制了其广泛应用。浙江大学和哈佛大学的研究团队提出了一种名为ICEdit的新方法,仅需以往模型0.1%的训练数据和1%的训练参数量,便实现了高质量的图像编辑效果,甚至在某些方面超越了商业大模型。

ICEdit的核心在于充分利用文生图模型自身的理解和生成能力,使其能够直接理解并执行编辑指令。与传统的免训练图像编辑方法相比,ICEdit通过上下文提示词的方式,使模型能够理解并生成符合编辑指令的图像。例如,当输入“让这个男人抱着篮球”时,模型能够生成相应的图像,并且保持人物的ID和背景的一致性。这种方法不仅降低了训练成本,还提高了编辑的稳定性和多样性。

研究人员还提出了两种免训练的架构,分别基于文生图DiT模型和Inpainting DiT模型,使模型能够接收参考图像并根据上下文指令进行编辑。尽管这些方法在成片率上仍有提升空间,但它们为后续的微调和优化提供了基础。通过混合专家LoRA微调和推理时拓展策略,ICEdit的编辑性能得到了显著提升,尤其是在人物ID保持、背景保持和指令遵循方面表现出色。

与商业大模型相比,ICEdit具有开源低成本和快速编辑的优势,能够在8~10秒内完成一张图片的编辑。此外,ICEdit还展示了其在多种下游任务中的泛化能力,如图像光照改变、水印去除和修复等。这些特性使得ICEdit成为一个通用的image-to-image框架,具有广泛的应用前景。

总的来说,ICEdit通过创新的方法和技术,在图像编辑领域实现了“降本增效”,为未来的研究和应用提供了新的方向。

原文和模型


【原文链接】 阅读原文 [ 3072字 | 13分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...