超越Sora极限,120秒超长AI视频模型诞生!

AIGC动态9个月前发布 AIera
1,128 0 0
超越Sora极限,120秒超长AI视频模型诞生!

 

文章摘要


【关 键 词】 视频生成条件注意力外观保持一致性动态效果

UT奥斯丁等机构提出了一种名为StreamingT2V的技术,可以让AI视频的长度扩展至近乎无限,同时保持一致性和良好的动作幅度。

这项技术的核心构架包括三个部分:条件注意力模块(CAM)用于确保视频连贯性,外观保持模块用于防止遗忘开头场景,以及随机混合技术用于保持一致性。

StreamingT2V的特点是不限定于特定的文生视频模型,随着基础模型性能的提升,生成的视频效果也会不断提升。

该技术展示了不同帧数的视频效果,从1200帧的2分钟视频到80帧的8秒视频,都展现出良好的动态效果和一致性。

StreamingT2V的工作流程分为初始化阶段、Streaming T2V阶段和Streaming Refinement阶段,通过条件注意力模块和外观保持模块增强视频生成质量。

条件注意力模块利用特征提取器和特征注入器,而外观保存模块则通过固定锚帧信息保持长期记忆。

此外,自动回归视频增强阶段利用高分辨率文本-视频模型对生成的视频块进行增强。

在评估方面,研究人员采用了一些指标来评估方法的时间一致性、文本对齐和每帧质量。

整体而言,StreamingT2V技术展示了生成高度一致且长度可扩展的视频的潜力,为文生视频技术带来了新的发展方向。

原文和模型


【原文链接】 阅读原文 [ 1996字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...