CVPR 2024丨文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF
文章摘要
【关 键 词】 3D场景编辑、CustomNeRF、文本驱动、图像驱动、技术创新
美图影像研究院(MT Lab)联合中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了一种名为CustomNeRF的3D场景编辑方法。这项技术允许使用文本描述和参考图像作为编辑提示,以实现对3D场景的精确编辑。CustomNeRF的研究成果已被CVPR 2024接收,并且相关代码已经开源。
自NeRF技术自2020年提出以来,它在3D场景重建和编辑方面取得了显著的进展。然而,现有的基于预训练扩散模型的3D场景编辑方法存在局限性,例如难以实现精确的文本对齐编辑,以及在真实场景中的直接适配问题。CustomNeRF通过引入局部-全局迭代编辑(LGIE)训练方案和类引导的正则化策略,解决了这些挑战。
CustomNeRF的工作流程包括三个步骤:首先,通过引入额外的mask field来估计编辑概率,并使用Grouded SAM从自然语言描述中提取图像编辑区域的掩码,结合原始图像集训练foreground-aware NeRF。其次,通过Custom Diffusion方法在图像驱动条件下针对参考图进行微调,学习特定主体的关键特征,并形成混合提示。最后,在编辑阶段,通过LGIE方案进行解耦合的SDS训练,同时保留背景内容。
实验结果表明,CustomNeRF在图像和文本驱动的3D场景编辑任务中均取得了优于基线方法的结果,不仅在编辑提示对齐方面表现良好,而且能够保持背景区域与原始场景的一致性。
CustomNeRF的提出,不仅支持了文本描述和参考图像的编辑提示,还解决了精确的仅前景编辑和单视图参考图像时多个视图的一致性问题。这一技术的创新性在于它的局部-全局迭代编辑训练方案和类引导正则化策略,这些策略使得编辑操作能够在专注于前景的同时保持背景不变,并减轻图像驱动编辑中的视图不一致问题。
美图影像研究院(MT Lab)作为该研究的主要贡献者,一直致力于计算机视觉和人工智能领域的研究与开发。2023年,美图公司在AI领域的研发投入达到6.4亿元,占总收入的23.6%,并推出了美图奇想大模型(MiracleVision)。未来,MT Lab将继续加强AI能力储备,持续强化模型能力,助力构建AI原生工作流。
原文和模型
【原文链接】 阅读原文 [ 2621字 | 11分钟 ]
【原文作者】 AI科技评论
【摘要模型】 gpt-4
【摘要评分】 ★★★★★