贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行

贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行

 

文章摘要


【关 键 词】 视频生成物体追踪编辑特效模型框架区域感知

贾佳亚团队与Adobe团队合作开发的GenProp(Generative Video Propagation)模型,展示了Text-to-Video模型作为世界模拟器的潜力,并对传统视觉任务进行了革新。GenProp能够处理包括实例追踪在内的多种传播任务,相较于传统方法SAM v2.1,GenProp利用其生成模型的优势,能够追踪物体的side effects,如影子、反射等,这些是传统方法难以覆盖的。

GenProp的核心在于其生成模型的能力,它不追求成为某个问题的定量SOTA,而是通过拓展问题的边界,展现之前方法做不到的事情。例如,在物体移除任务中,GenProp能够同时移除物体及其产生的side effects;在物体插入任务中,GenProp不仅能插入静止物体,还能产生合理的独立运动;在物体替换任务中,GenProp能够大幅改变替换物体的形状,而传统方法如Video-P2P无法做到这一点。

GenProp还具备编辑特效的能力,如使钓鱼竿着火,这是当前编辑算法难以实现的。此外,GenProp在没有outpainting数据pair训练的情况下,能够补全大面积运动的区域,体现了模型的通用能力。

GenProp的框架允许用户在初始帧上进行任意修改,并据此生成后续变化的内容。推理过程中,GenProp通过选择性内容编码器(Selective Content Encoder,SCE)接收原始视频作为输入,保留未改变区域的内容。首帧的更改会通过Image-to-Video(I2V)模型在整个视频中传播,而其他区域保持不变。GenProp集成了SCE和掩码预测解码器(Mask Decoder),强制模型传播编辑区域的同时,保留原始视频中其他所有区域的内容。

GenProp的训练过程中,仅放开SCE和Mask Decoder的参数,合成数据只作为SCE的输入,用于监督的模型输出数据均采用原始视频,保证了模型输出的视频质量不会被降低。文章还提出了区域感知损失(Region-Aware Loss),通过限制梯度的方式,削弱了SCE对于编辑区域的影响,帮助模型将编辑区域与原始内容区分开来。

总的来说,GenProp搭建了一个通用框架,将视频生成模型转变为编辑模型,能够将一帧的修改传播到整个视频,对于去除任务、修改任务、背景修改、物体插入和物体追踪等任务都展现出了强大的能力,并且涌现出了如outpainting等新能力。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1727字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...