文章摘要
【关 键 词】 视频生成、条件注意力、外观保持、一致性、动态效果
UT奥斯丁等机构提出了一种名为StreamingT2V的技术,可以让AI视频的长度扩展至近乎无限,同时保持一致性和良好的动作幅度。
这项技术的核心构架包括三个部分:条件注意力模块(CAM)用于确保视频连贯性,外观保持模块用于防止遗忘开头场景,以及随机混合技术用于保持一致性。
StreamingT2V的特点是不限定于特定的文生视频模型,随着基础模型性能的提升,生成的视频效果也会不断提升。
该技术展示了不同帧数的视频效果,从1200帧的2分钟视频到80帧的8秒视频,都展现出良好的动态效果和一致性。
StreamingT2V的工作流程分为初始化阶段、Streaming T2V阶段和Streaming Refinement阶段,通过条件注意力模块和外观保持模块增强视频生成质量。
条件注意力模块利用特征提取器和特征注入器,而外观保存模块则通过固定锚帧信息保持长期记忆。
此外,自动回归视频增强阶段利用高分辨率文本-视频模型对生成的视频块进行增强。
在评估方面,研究人员采用了一些指标来评估方法的时间一致性、文本对齐和每帧质量。
整体而言,StreamingT2V技术展示了生成高度一致且长度可扩展的视频的潜力,为文生视频技术带来了新的发展方向。
原文和模型
【原文链接】 阅读原文 [ 1996字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...