快手可灵，把压力给到了抖音剪映

AIGC动态1年前 (2024)发布 admin

2,626 0 0

文章摘要

快手自研的视频生成大模型“可灵”一经上线，便引发了行业广泛关注，预约使用人数已超6.5万。该模型能够生成约2分钟、分辨率为1080p的视频，效果堪比OpenAI的Sora，而快手“可灵”的发布测试，使得用户可以通过快影App直接体验这一服务。这一举动被视为快手在大模型竞争中的一次弯道超车，因为在此前的大模型角逐中，快手并非焦点。

“可灵”采用的是与Sora相似的DiT架构，并自研了3D时空联合注意力模块和3D VAE网络，强化了时空运动建模和隐空间编/解码能力。其产品亮点在于支持多样自由定制，并能生成具有高度物理一致性的视频内容。

值得注意的是，快手“可灵”的推出背后有着来自前腾讯AI实验室高级研究员王鑫涛的贡献。王鑫涛目前是快手多模型与AIGC部门的高级研究员，他的研究对“可灵”的技术实现起到了关键作用。

尽管“可灵”获得了好评，但国内市场竞争激烈，字节跳动也在内测类似的产品，预计不久后将发布。国际市场上，Luma AI也推出了Dream Machine，提供免费的高清视频生成服务。这些竞争者都在追赶Sora的水准，而算力成本和优化能力是共同面临的挑战。

大模型行业正处在初期竞争阶段，如何将应用落地，降低成本是行业共同面临的课题。快手要想保持国内领先地位，仍需面临包括字节跳动等对手的严峻考验。追赶Sora，已成为大模型行业在2024年的主要任务之一，而视频生成大模型领域正逐渐成为各厂商竞争的新高地。