文章摘要
【关 键 词】 视频模型、混元视频、AI视频、Transformer、多模态
腾讯开源了名为HunyuanVideo(混元)的视频模型,这是一个拥有130亿参数的类Sora文生视频模型,是目前参数最大的开源视频模型。混元具备物理模拟、一镜到底、高文本语义还原度、动作一致性和高对比度色彩等技术特性,并且能够生成带音乐的视频,这一功能在许多顶级视频模型中并不常见。混元的视频生成效果在细节上甚至超过了一些一线商业视频模型,如Luma、可灵、海螺和Runway。
混元的视频生成效果受到了国外网友的高度评价,他们认为混元在实时唇同步、表情和动作方面达到了新的高度,甚至有人预测AI生成的视频可能会超越传统电影。尽管混元的视频品质极高,但普通开发者在本地部署时面临较大压力,例如生成一个5秒视频可能需要60G内存和40分钟的时间。
混元的架构基于时空压缩的潜在空间训练,并通过Causal 3D VAE进行压缩。文本提示通过大语言模型编码作为条件输入。Causal 3D VAE是一种特殊的变分自编码器,能够学习数据分布并理解数据间的因果关系,特别适合处理具有时间依赖性的数据。混元还引入了Transformer架构,并采用Full Attention机制来统一图像和视频生成,采用“双流到单流”混合模型设计来生成视频。在双流阶段,视频和文本数据被分别送入不同的Transformer块进行处理,而在单流阶段,独立处理的视频和文本特征被合并,形成多模态输入,一起输入到后续的Transformer块中,实现有效多模态信息融合。
腾讯已经开放了混元视频模型的试用申请渠道,并计划发布在线产品,有兴趣的用户可以申请试用。
原文和模型
【原文链接】 阅读原文 [ 1650字 | 7分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆