通义万相视频生成重磅升级,成功登顶VBench,运镜、质感直达专业级

通义万相视频生成重磅升级,成功登顶VBench,运镜、质感直达专业级

 

文章摘要


【关 键 词】 视频生成AI艺术物理模拟多风格技术创新

阿里巴巴集团旗下的通义万相视频生成模型迎来了2.1版本的重大升级,推出了极速版和专业版两个版本,分别针对高效性能和卓越表现力进行了优化。此次升级在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展,为AI艺术创作开辟了新的可能性。

新模型在视频生成效果上表现出色,如在“切牛排”示例中,牛排的纹理和光泽被清晰呈现,刀切入肉质的Q弹感也被逼真还原。人物特写生成效果同样自然协调,风掠过头发的运动规律得到了准确呈现。在权威视频生成评测榜单VBench Leaderboard上,通义万相以84.7%的总分超越了Gen3、Pika、CausVid等国内外视频生成模型,位居榜首。

通义万相2.1版本在实际测试中展现了显著的提升,特别是在文字生成能力上,成为首个支持中文文字生成能力的视频生成模型,同时支持中英文文字特效生成。此外,模型在大幅度运动生成方面也表现出色,如霹雳舞和滑雪视频中的流畅自然动作,以及在物理规律理解方面的显著提升,模拟出真实感十足的视频。

在运镜方面,通义万相能够根据简单的文本指令自动输出合理的视频,如摇滚乐队演出和年轻侦探站在繁华街上的场景。长文本指令遵循方面也有所进步,能够捕捉并呈现复杂的场景和动作细节。此外,通义万相还具备强大的概念组合能力,能够准确理解不同的想法、元素或风格,并将其组合创造全新的视频内容。

新版通义万相还支持多种艺术风格,如卡通、电影色、3D风格、油画、古典等,并且支持不同长宽比,以适配不同终端设备。这些进步归功于阿里云在视频生成基础模型上的升级,包括架构、训练、评估的全方位优化。通义万相2.1采用了基于线性噪声轨迹的Flow Matching方案,并针对视频VAE和Diffusion Transformer进行了创新性设计,以提高模型的收敛性、生成质量和效率。

团队还实现了百万超长序列的高效训练,通过分布式、显存优化的训练策略,达到了业界领先的MFU,并解决了内存溢出问题,保证了训练稳定性。在数据构建和模型评估方面,团队引入了自动化,以确保模型学习到多样化的场景和复杂的时空依赖关系,并设计了全面的自动化度量机制,以加快模型迭代和优化过程。

随着基础模型能力的提升,AI将越来越懂人类的指令,并能创造出越来越真实合理的环境。通义万相的升级,预示着视频生成领域可能即将迎来新的“GPT-3时刻”,为行业变革带来新的机遇。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4786字 | 20分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...