视频一键拆分PS层！DeepMind新模型效果碾压同级，物体、背景完美分离，还能脑补

1,858 0 0

文章摘要

【关键词】 视频分层、DeepMind、Casper模型、物体分离、视频编辑

DeepMind的研究人员开发了一种创新的视频分层方法，该方法能够在不假设背景静止或需要精确相机姿态的情况下，将视频分解成多个包含物体及其效果（如阴影和反射）的层。这一技术显著提升了视频编辑的灵活性和效率。传统的视频分解方法在处理动态背景或缺乏精确相机和深度估计数据的视频时存在限制，而新方法通过训练视频扩散模型，利用其生成式先验知识来克服这些限制。

研究人员基于文本到视频的生成器Lumiere开发了一个名为Casper的模型，该模型能够移除物体及其效果。Casper通过三元掩码（Trimask）条件来区分需要移除的对象、需要保留的对象以及可能包含需要移除或保留效果的背景区域。此外，研究人员还构建了一个包含真实和合成视频示例的训练数据集，以增强模型的修复和背景保留能力。

在实验中，该方法展现出了处理包含软阴影、光泽反射、飞溅的水等多种元素的日常拍摄视频的能力，输出高质量的分解和编辑结果。定性分析表明，新方法能够正确分离船的尾迹等复杂效果，而定量分析则显示，该方法在峰值信噪比（PSNR）和Learned Perceptual Image Patch Similarity（LPIPS）两个评估指标上均取得了最佳性能。这表明新方法在视频分层领域具有显著的优越性，能够提高视频编辑的效率和直观性。