文章摘要
【关 键 词】 视频生成、技术创新、中文生成、物理模拟、AI优化
通义万相视频生成模型经历了重大升级,推出了2.1极速版和2.1专业版两个版本,以其84.70%的总分在VBench评测榜单中超越了Gen-3、CausVid等顶尖模型,位居榜首。新版本在架构上进行了创新,特别是在处理复杂运动、还原真实物理规律、提升影视质感和优化指令遵循等方面表现出色。模型还首次实现了中文文字视频生成,降低了AI视频文字创作的门槛。
通义万相2.1的五大亮点包括:首创中文文字生成,解决了中文字体结构复杂和动态效果美感要求高的问题;更稳定的复杂运动生成,能够在多种场景下展示惊人的运动天赋;更灵活的运镜控制,能够根据场景需求智能调整运镜速度;真实的物理规律模拟,提升了对现实世界动态和细节的认知,模拟出真实感十足的视频;以及高级质感、多种风格、多长宽比的支持,能够生成电影级画质的视频,并支持各类艺术风格。
技术创新方面,通义万相2.1采用了自研的高效VAE和DiT架构,在时空上下文关系建模方面取得重大突破。视频VAE层面,通过结合缓存机制和因果卷积,提出了一个视频编码解决方案,支持无限长1080P视频的高效编解码。DiT架构的设计围绕实现强大的时空建模能力和保持高效的训练过程两个核心目标展开,包括时空全注意机制、参数共享机制和优化文本嵌入等创新。
此外,通义万相2.1还实现了超长序列训练和推理,通过分布式、显存优化的策略,优化训练性能,实现了100万Tokens的高效训练。团队还建立了一套完整的自动化数据构建系统和多维的自动化评估系统,以构建高质量的视频数据并加速模型的迭代优化。这些技术突破预示着AI视频生成的GPT-3时刻正加速到来。
原文和模型
【原文链接】 阅读原文 [ 5068字 | 21分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆