快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

AIGC动态2年前 (2024)发布 QbitAI

3,709 0 0

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

文章摘要

本文介绍了一款名为可灵的全新国产视频生成大模型，它是快手公司推出的产品级应用。可灵采用了类似Sora的技术路线，融合了多项自研技术创新，生成的视频不仅运动幅度大且合理，还能模拟物理世界特性，具备强大的概念组合能力和想象力。数据上，可灵支持生成长达2分钟、30fps、1080p分辨率的高质量视频。

该模型采用了原生的文生视频技术路线，而非图像生成+时序模块的组合。模型采用了类Sora的DiT结构，用Transformer替代了传统扩散模型中的U-Net。此外，团队还自研了3D VAE网络实现时空同步压缩，并设计了全注意力机制作为时空建模模块。在训练数据方面，团队构建了完备的标签体系，使用视频描述模型生成结构化视频描述。为了提升运算效率，采用了传输路径更短的flow模型，并使用了分布式训练集群。在模型训练上，采取了分阶段训练策略逐步提升分辨率。此外，模型支持多种控制信息输入，如相机运镜、帧率等，为用户提供了丰富的内容控制能力。

快手公司表示，可灵大模型不是实验室放出的Demo或视频结果演示，而是面向实际应用的产品级应用。目前已在快影APP中开启邀测，未来还将推出更多应用，如“AI舞王”等。整体而言，可灵大模型在视频生成方面取得了显著进展，并展现出强大的应用潜力。