CVPR 2024｜文本或图像提示精准编辑 3D 场景，美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF

AIGC动态1年前 (2024)发布 ai-front

941 0 0

CVPR 2024｜文本或图像提示精准编辑 3D 场景，美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF

文章摘要

【关键词】 美图影像、3D场景编辑、CustomNeRF、技术研究、CVPR 2024

美图影像研究院（MT Lab）联合中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了一种名为CustomNeRF的3D场景编辑方法。

这项技术允许使用文本描述和参考图像作为编辑提示，以实现对3D场景的精确编辑。

CustomNeRF的研究成果已被CVPR 2024接收，并且相关代码已经开源。

NeRF技术自2020年提出以来，因其易于优化和连续表示的特点，在3D场景重建和编辑领域得到了广泛应用。

然而，由于NeRF的隐式表征和3D场景的几何特性，使得根据文本提示进行编辑变得具有挑战性。

为了解决这一问题，研究团队提出了CustomNeRF框架，通过微调预训练的扩散模型，将参考图像中的特定视觉主体嵌入到混合提示中，实现了一般化和定制化的3D场景编辑。

CustomNeRF面临的两大挑战包括：如何精确地仅对图像前景区域进行编辑，以及如何在使用单视图参考图像时保持多个视角的一致性。

为了解决这些挑战，研究团队提出了局部-全局迭代编辑（LGIE）的训练方案，以及类引导的正则化策略。

LGIE方案通过在图像前景区域编辑和全图像编辑之间交替进行，实现了精确的前景编辑，同时保留了图像背景。

类引导的正则化策略则利用预训练扩散模型中的类先验，促进几何一致的编辑。

CustomNeRF的整体流程包括三个步骤：首先，通过引入额外的mask field来估计编辑概率，并使用Grouded SAM从自然语言描述中提取图像编辑区域的掩码；其次，采用Custom Diffusion方法对参考图进行微调，学习特定主体的关键特征；最后，通过LGIE方案进行解耦合的SDS训练，实现编辑布局区域的同时保留背景内容。

实验结果表明，CustomNeRF在参考图像和文本驱动的3D场景编辑任务中取得了良好的效果，不仅与编辑提示达成了对齐，而且背景区域与原场景保持一致。

在文本对齐指标、图像对齐指标和人类评估中，CustomNeRF均超越了基线方法。

美图影像研究院（MT Lab）是美图公司的技术支持团队，专注于计算机视觉、机器学习等领域的研究和产品化落地。

2023年，美图公司在AI领域的研发投入达到6.4亿元，占总收入的23.6%，并推出了美图奇想大模型（MiracleVision）。

未来，MT Lab将继续加强AI能力储备，推动美图产品的发展。

此外，文章还推荐了AI相关的报告和活动，供读者进一步了解和参与。