媲美Sora，最长2分钟！快手发布文生视频大模型-可灵

AIGC动态1年前 (2024)发布 AIGCOPEN

2,376 0 0

文章摘要

快手AI团队最新发布的大模型“可灵”引人瞩目，该模型具备文本生成视频的能力，能够创作出2分钟长、1080P分辨率、每秒30帧的超长视频。在色彩、视频质量、动作一致性和文本语义理解等方面，可灵的表现足以比肩OpenAI的Sora模型，同时具备模拟物理世界的技术特性。

特别值得一提的是，可灵模型已开放测试，用户可直接在官网下载体验。模型采用与Sora相同的Diffusion Transformer架构和3D时空联合注意力机制，能够精准捕捉视频帧内的局部空间特征及跨帧的时间动态特征，确保生成的视频内容在物体快速移动、场景剧烈变化或复杂人物动作时，仍能保持流畅和连贯。

此外，可灵采用了可变分辨率的训练策略，能够适配手机、平板、PC等不同设备，满足电影制作、游戏开发、社交营销、在线教育等多样化的业务场景需求。通过一系列由可灵生成的视频案例，其在动作协调性、色彩和运动率等方面的表现相当出色，证明了该模型在实际应用中的高实用价值。对这一先进技术感兴趣的用户，可以直接尝试并体验可灵带来的创新视频创作服务。