快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模

AIGC动态7个月前发布 QbitAI
1,145 0 0
快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模

 

文章摘要


【关 键 词】 视频生成国产模型技术创新高效训练应用潜力

本文介绍了一款名为可灵的全新国产视频生成大模型,它是快手公司推出的产品级应用。可灵采用了类似Sora的技术路线,融合了多项自研技术创新,生成的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上,可灵支持生成长达2分钟、30fps、1080p分辨率的高质量视频。

该模型采用了原生的文生视频技术路线,而非图像生成+时序模块的组合。模型采用了类Sora的DiT结构,用Transformer替代了传统扩散模型中的U-Net。此外,团队还自研了3D VAE网络实现时空同步压缩,并设计了全注意力机制作为时空建模模块。在训练数据方面,团队构建了完备的标签体系,使用视频描述模型生成结构化视频描述。为了提升运算效率,采用了传输路径更短的flow模型,并使用了分布式训练集群。在模型训练上,采取了分阶段训练策略逐步提升分辨率。此外,模型支持多种控制信息输入,如相机运镜、帧率等,为用户提供了丰富的内容控制能力。

快手公司表示,可灵大模型不是实验室放出的Demo或视频结果演示,而是面向实际应用的产品级应用。目前已在快影APP中开启邀测,未来还将推出更多应用,如“AI舞王”等。整体而言,可灵大模型在视频生成方面取得了显著进展,并展现出强大的应用潜力

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4755字 | 20分钟 ]
【原文作者】 量子位
【摘要模型】 glm-4
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...