文章摘要
【关 键 词】 视频生成、国产模型、技术创新、高效训练、应用潜力
本文介绍了一款名为可灵的全新国产视频生成大模型,它是快手公司推出的产品级应用。可灵采用了类似Sora的技术路线,融合了多项自研技术创新,生成的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上,可灵支持生成长达2分钟、30fps、1080p分辨率的高质量视频。
该模型采用了原生的文生视频技术路线,而非图像生成+时序模块的组合。模型采用了类Sora的DiT结构,用Transformer替代了传统扩散模型中的U-Net。此外,团队还自研了3D VAE网络实现时空同步压缩,并设计了全注意力机制作为时空建模模块。在训练数据方面,团队构建了完备的标签体系,使用视频描述模型生成结构化视频描述。为了提升运算效率,采用了传输路径更短的flow模型,并使用了分布式训练集群。在模型训练上,采取了分阶段训练策略逐步提升分辨率。此外,模型支持多种控制信息输入,如相机运镜、帧率等,为用户提供了丰富的内容控制能力。
快手公司表示,可灵大模型不是实验室放出的Demo或视频结果演示,而是面向实际应用的产品级应用。目前已在快影APP中开启邀测,未来还将推出更多应用,如“AI舞王”等。整体而言,可灵大模型在视频生成方面取得了显著进展,并展现出强大的应用潜力。
原文和模型
【原文链接】 阅读原文 [ 4755字 | 20分钟 ]
【原文作者】 量子位
【摘要模型】 glm-4
【摘要评分】 ★★★★☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...