多重可控插帧视频生成编辑,Adobe这个大一统模型做到了,效果惊艳
文章摘要
【关 键 词】 视频编辑、动画生成、轨迹控制、像素控制、关键帧
Adobe Research的研究者提出了一个名为MotionBridge的统一模型,旨在提高视频生成和编辑的控制能力。该模型不仅能够根据图片生成动画,还支持多种模态控制,包括关键帧、运动轨迹、掩码、引导像素和文本等。MotionBridge的算法集成了多种可控信号,使用户能够更便捷地生成或编辑视频。
MotionBridge的亮点包括:
1. 运动轨迹控制:通过简单的轨迹笔画,使物体栩栩如生地动起来。
2. 掩码控制:结合运动笔画和掩码,可以控制镜头视角和指定动态或静态区域。
3. 引导像素控制:将特定像素区域粘贴在指定位置,实现精准的像素级控制。
4. 关键帧控制:生成关键帧之间的中间帧,实现场景的平滑切换。
与传统插帧方法相比,MotionBridge在保留图生视频能力的同时,提供了更高的可控性和视频生成质量。该模型基于DiT架构,具有普适性,适用于任何形式的DiT架构。
技术要点包括:
1. 分类编码控制信号:将控制信号分为内容控制和运动控制两类,分别计算特征并引导去噪过程。
2. 运动轨迹表征:提出一种生成器,从光流合成轨迹并转换为稀疏RGB点,提高运动控制的准确性。
3. 空间内容控制表征:增加掩码和引导像素等空间内容控制,降低生成过程中的歧义。
4. 训练策略:采用curriculum learning策略,先输入简单控制,再过渡到高级控制,确保模型平稳学习。
对比实验表明,MotionBridge在没有额外控制干预下,可以生成更真实高质量的图片细节,并在不同DiT架构下展现出普适性。消融研究证实了分类编码融合和curriculum learning设计对于模型理解轨迹控制输入以及视频生成质量的重要作用。掩码的使用可以让用户以较少的交互达到想要的效果。
更多技术细节和对比实验,请参考原文和视频。
原文和模型
【原文链接】 阅读原文 [ 2125字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★