腾讯版Sora开源！最强开源视频模型，130亿参数、物理模拟、电影级画质！

1,879 0 0

文章摘要

【关键词】 视频模型、混元视频、AI视频、Transformer、多模态

腾讯开源了名为HunyuanVideo（混元）的视频模型，这是一个拥有130亿参数的类Sora文生视频模型，是目前参数最大的开源视频模型。混元具备物理模拟、一镜到底、高文本语义还原度、动作一致性和高对比度色彩等技术特性，并且能够生成带音乐的视频，这一功能在许多顶级视频模型中并不常见。混元的视频生成效果在细节上甚至超过了一些一线商业视频模型，如Luma、可灵、海螺和Runway。

混元的视频生成效果受到了国外网友的高度评价，他们认为混元在实时唇同步、表情和动作方面达到了新的高度，甚至有人预测AI生成的视频可能会超越传统电影。尽管混元的视频品质极高，但普通开发者在本地部署时面临较大压力，例如生成一个5秒视频可能需要60G内存和40分钟的时间。

混元的架构基于时空压缩的潜在空间训练，并通过Causal 3D VAE进行压缩。文本提示通过大语言模型编码作为条件输入。Causal 3D VAE是一种特殊的变分自编码器，能够学习数据分布并理解数据间的因果关系，特别适合处理具有时间依赖性的数据。混元还引入了Transformer架构，并采用Full Attention机制来统一图像和视频生成，采用“双流到单流”混合模型设计来生成视频。在双流阶段，视频和文本数据被分别送入不同的Transformer块进行处理，而在单流阶段，独立处理的视频和文本特征被合并，形成多模态输入，一起输入到后续的Transformer块中，实现有效多模态信息融合。

腾讯已经开放了混元视频模型的试用申请渠道，并计划发布在线产品，有兴趣的用户可以申请试用。