文章摘要
【关 键 词】 美图影像、3D场景编辑、CustomNeRF、技术研究、CVPR 2024
美图影像研究院(MT Lab)联合中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了一种名为CustomNeRF的3D场景编辑方法。
这项技术允许使用文本描述和参考图像作为编辑提示,以实现对3D场景的精确编辑。
CustomNeRF的研究成果已被CVPR 2024接收,并且相关代码已经开源。
NeRF技术自2020年提出以来,因其易于优化和连续表示的特点,在3D场景重建和编辑领域得到了广泛应用。
然而,由于NeRF的隐式表征和3D场景的几何特性,使得根据文本提示进行编辑变得具有挑战性。
为了解决这一问题,研究团队提出了CustomNeRF框架,通过微调预训练的扩散模型,将参考图像中的特定视觉主体嵌入到混合提示中,实现了一般化和定制化的3D场景编辑。
CustomNeRF面临的两大挑战包括:如何精确地仅对图像前景区域进行编辑,以及如何在使用单视图参考图像时保持多个视角的一致性。
为了解决这些挑战,研究团队提出了局部-全局迭代编辑(LGIE)的训练方案,以及类引导的正则化策略。
LGIE方案通过在图像前景区域编辑和全图像编辑之间交替进行,实现了精确的前景编辑,同时保留了图像背景。
类引导的正则化策略则利用预训练扩散模型中的类先验,促进几何一致的编辑。
CustomNeRF的整体流程包括三个步骤:首先,通过引入额外的mask field来估计编辑概率,并使用Grouded SAM从自然语言描述中提取图像编辑区域的掩码;其次,采用Custom Diffusion方法对参考图进行微调,学习特定主体的关键特征;最后,通过LGIE方案进行解耦合的SDS训练,实现编辑布局区域的同时保留背景内容。
实验结果表明,CustomNeRF在参考图像和文本驱动的3D场景编辑任务中取得了良好的效果,不仅与编辑提示达成了对齐,而且背景区域与原场景保持一致。
在文本对齐指标、图像对齐指标和人类评估中,CustomNeRF均超越了基线方法。
美图影像研究院(MT Lab)是美图公司的技术支持团队,专注于计算机视觉、机器学习等领域的研究和产品化落地。
2023年,美图公司在AI领域的研发投入达到6.4亿元,占总收入的23.6%,并推出了美图奇想大模型(MiracleVision)。
未来,MT Lab将继续加强AI能力储备,推动美图产品的发展。
此外,文章还推荐了AI相关的报告和活动,供读者进一步了解和参与。
原文和模型
【原文链接】 阅读原文 [ 2959字 | 12分钟 ]
【原文作者】 AI前线
【摘要模型】 gpt-4
【摘要评分】 ★★★★☆