大一统视频编辑框架：浙大&微软推出UniEdit，无须训练、支持多种编辑场景

AIGC动态1年前 (2024)发布 almosthuman2014

1,025 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

摘要：
本文介绍了由浙江大学、微软亚洲研究院和北京大学的研究者共同提出的基于文本描述的视频编辑统一框架UniEdit。UniEdit不仅支持传统视频外观编辑，如风格迁移、背景替换等，还能编辑视频中对象的动作。该框架的特点是无需训练，具有高度的灵活性和便捷性。UniEdit的技术核心在于利用视频生成模型的时间自注意层和空间自注意层，通过辅助动作参考分支和视频重建分支，实现对视频内容和动作的精确编辑。实验结果显示，UniEdit在多种编辑场景中表现出色，具有较好的时序一致性和内容保留能力。此外，UniEdit还允许图像输入，进一步扩展了其应用范围。

详细摘要：

1. UniEdit的多功能性：
UniEdit框架能够处理多种视频编辑任务，包括动作编辑、风格化、背景替换以及刚性和非刚性物体替换。研究者通过实验展示了UniEdit在不同编辑场景下的能力，如将浣熊弹吉他的动作变为吃苹果或招手。

2. UniEdit的独特优势：
UniEdit的多功能性、无需训练和灵活性是其主要优势。它可以直接利用现有的文本到视频生成模型，无需额外训练或微调，提高了部署的便捷性和用户使用的方便度。

3. 技术创新点：
UniEdit的技术核心在于对视频生成模型的时间自注意层和空间自注意层的利用。研究者通过引入辅助动作参考分支和视频重建分支，实现了文本引导的动作特征注入和源视频内容的保留。此外，UniEdit还允许图像输入，通过文本提示指导动画过程，合成高质量的视频。

4. 算法框架解读：
UniEdit遵循反演-生成流程，使用DDIM反演后的潜变量作为初始噪声，并通过预训练的UNet进行去噪处理。在动作编辑中，通过辅助视频重建分支和动作参考分支，实现内容保留和动作控制。在外观编辑中，通过空间结构控制，保持源视频的结构一致性。

5. 实验结果：
UniEdit在LaVie视频生成模型上进行了验证，展示了其在不同编辑场景中的有效性。与基线方法相比，UniEdit在内容保留和时序一致性方面表现优越。用户研究也显示，UniEdit的编辑结果得到了较高的评分。

6. 结论：
UniEdit作为一个无需训练的视频编辑框架，展示了其在视频内容和动作编辑方面的潜力。其灵活性和便捷性使其在视频编辑领域具有广泛的应用前景。