两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源

两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源

 

文章摘要


【关 键 词】 文生视频长视频生成AI研究StreamingT2V视频质量提升

Picsart AI Research等多个机构联合提出了一种新的文生视频方法:StreamingT2V,这是一种自回归方法,配备了长短期记忆模块,可以生成具有时间一致性的长视频。这一技术的提出,是为了克服现有方法在生成长视频(≥ 64 帧)时的缺点和局限。

StreamingT2V的工作流程包括初始化阶段和流式文生视频阶段。初始化阶段使用预训练的文生视频模型生成第一个16帧的视频块,而流式文生视频阶段则以自回归方式生成后续帧的新内容。在生成长视频后,再通过流式优化阶段提升视频质量。

为了实现无缝切换和稳健应对生成过程中的变化,该团队提出了条件注意力模块(CAM)外观保留模块(APM)。CAM可以利用之前视频块最后8帧的短期信息,而APM则通过使用固定锚帧中的信息将长期记忆整合进视频生成过程中。

为了提升长视频生成的质量和分辨率,该团队针对自回归生成任务对一个视频增强模型进行了改进,选择了一个高分辨率文生视频模型并使用了SDEdit方法来提升连续24帧视频块的质量。为了使视频块增强过渡变得平滑,他们还设计了一种随机混合方法,能以无缝方式混合重叠的增强过的视频块。

实验结果显示,StreamingT2V在无缝视频块过渡和运动一致性方面的表现最佳,其MAWE分数显著优于其他所有方法,SCuts分数也有类似表现。此外,在生成视频的单帧质量上,StreamingT2V仅略逊于SparseCtrl,这表明这个新方法能够生成高质量的长视频,并且比其它对比方法具有更好的时间一致性和运动动态。

总的来说,StreamingT2V的提出,为长视频生成技术的发展提供了新的可能,其在视频质量提升、时间一致性和运动动态等方面的优秀表现,为未来的研究提供了新的参考和启示。

原文和模型


【原文链接】 阅读原文 [ 2056字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...