两分钟1200帧的长视频生成器StreamingT2V来了，代码将开源

AIGC动态1年前 (2024)发布 almosthuman2014

2,618 0 0

文章摘要

【关键词】 文生视频、长视频生成、AI研究、StreamingT2V、视频质量提升

Picsart AI Research等多个机构联合提出了一种新的文生视频方法：StreamingT2V，这是一种自回归方法，配备了长短期记忆模块，可以生成具有时间一致性的长视频。这一技术的提出，是为了克服现有方法在生成长视频（≥ 64 帧）时的缺点和局限。

StreamingT2V的工作流程包括初始化阶段和流式文生视频阶段。初始化阶段使用预训练的文生视频模型生成第一个16帧的视频块，而流式文生视频阶段则以自回归方式生成后续帧的新内容。在生成长视频后，再通过流式优化阶段提升视频质量。

为了实现无缝切换和稳健应对生成过程中的变化，该团队提出了条件注意力模块（CAM）和外观保留模块（APM）。CAM可以利用之前视频块最后8帧的短期信息，而APM则通过使用固定锚帧中的信息将长期记忆整合进视频生成过程中。

为了提升长视频生成的质量和分辨率，该团队针对自回归生成任务对一个视频增强模型进行了改进，选择了一个高分辨率文生视频模型并使用了SDEdit方法来提升连续24帧视频块的质量。为了使视频块增强过渡变得平滑，他们还设计了一种随机混合方法，能以无缝方式混合重叠的增强过的视频块。

实验结果显示，StreamingT2V在无缝视频块过渡和运动一致性方面的表现最佳，其MAWE分数显著优于其他所有方法，SCuts分数也有类似表现。此外，在生成视频的单帧质量上，StreamingT2V仅略逊于SparseCtrl，这表明这个新方法能够生成高质量的长视频，并且比其它对比方法具有更好的时间一致性和运动动态。

总的来说，StreamingT2V的提出，为长视频生成技术的发展提供了新的可能，其在视频质量提升、时间一致性和运动动态等方面的优秀表现，为未来的研究提供了新的参考和启示。