超越Sora极限，120秒超长AI视频模型诞生！

AIGC动态1年前 (2024)发布 AIera

2,450 0 0

文章摘要

【关键词】 视频生成、条件注意力、外观保持、一致性、动态效果

UT奥斯丁等机构提出了一种名为StreamingT2V的技术，可以让AI视频的长度扩展至近乎无限，同时保持一致性和良好的动作幅度。

这项技术的核心构架包括三个部分：条件注意力模块（CAM）用于确保视频连贯性，外观保持模块用于防止遗忘开头场景，以及随机混合技术用于保持一致性。

StreamingT2V的特点是不限定于特定的文生视频模型，随着基础模型性能的提升，生成的视频效果也会不断提升。

该技术展示了不同帧数的视频效果，从1200帧的2分钟视频到80帧的8秒视频，都展现出良好的动态效果和一致性。

StreamingT2V的工作流程分为初始化阶段、Streaming T2V阶段和Streaming Refinement阶段，通过条件注意力模块和外观保持模块增强视频生成质量。

条件注意力模块利用特征提取器和特征注入器，而外观保存模块则通过固定锚帧信息保持长期记忆。

此外，自动回归视频增强阶段利用高分辨率文本-视频模型对生成的视频块进行增强。

在评估方面，研究人员采用了一些指标来评估方法的时间一致性、文本对齐和每帧质量。

整体而言，StreamingT2V技术展示了生成高度一致且长度可扩展的视频的潜力，为文生视频技术带来了新的发展方向。

原文和模型

【原文链接】 阅读原文 [ 1996字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

OpenAI ChatGPT

ChatGPT是OpenAI公司开发的一种大型语言模型。它是一种基于Transformer架构的深度学习模型，可以对语言进行建模和生成。它可以处理问答、对话生成、文本生成等多种任务。

# AIGC动态 # 大模型 # 视频生成 # gpt-3.5-turbo-0125 # OpenAI # 一致性 # 动态效果 # 外观保持 # 新智元 # 条件注意力 # 视频生成

文章版权归作者所有，未经允许请勿转载。

Stability AI开源3B代码生成模型：可补全，还能Debug

机器之心

2,464

隐藏在浏览器背后25年的男人，被奥特曼找到了！OpenAI剑指Chrome霸权

新智元

489

霉霉用中文拜早年！国风年味视频免费生成，可任意切换主角，0帧起手小白友好

量子位

1,628

Sora要把抖音们团灭了

admin

2,371

英特尔将获得 CHIPS法案85亿美元资金，加速1000亿美元投资

AIGC开放社区

1,872

用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

机器之心

1,885

暂无评论

暂无评论...

超越Sora极限，120秒超长AI视频模型诞生！

文章摘要

原文和模型

马斯克脑机接口再造奇迹：瘫痪小伙意念玩赛车击败正常人，打破光标控制记录，产生271页宝贵数据

独家：阿里云是如何布局 AI 大模型生态的？｜钛媒体AGI

相关文章

暂无评论

热门网址

热门文章

超越Sora极限，120秒超长AI视频模型诞生！

文章摘要

原文和模型

马斯克脑机接口再造奇迹：瘫痪小伙意念玩赛车击败正常人，打破光标控制记录，产生271页宝贵数据

独家：阿里云是如何布局 AI 大模型生态的？｜钛媒体AGI

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章