文章摘要
快手自研的视频生成大模型“可灵”一经上线,便引发了行业广泛关注,预约使用人数已超6.5万。该模型能够生成约2分钟、分辨率为1080p的视频,效果堪比OpenAI的Sora,而快手“可灵”的发布测试,使得用户可以通过快影App直接体验这一服务。这一举动被视为快手在大模型竞争中的一次弯道超车,因为在此前的大模型角逐中,快手并非焦点。
“可灵”采用的是与Sora相似的DiT架构,并自研了3D时空联合注意力模块和3D VAE网络,强化了时空运动建模和隐空间编/解码能力。其产品亮点在于支持多样自由定制,并能生成具有高度物理一致性的视频内容。
值得注意的是,快手“可灵”的推出背后有着来自前腾讯AI实验室高级研究员王鑫涛的贡献。王鑫涛目前是快手多模型与AIGC部门的高级研究员,他的研究对“可灵”的技术实现起到了关键作用。
尽管“可灵”获得了好评,但国内市场竞争激烈,字节跳动也在内测类似的产品,预计不久后将发布。国际市场上,Luma AI也推出了Dream Machine,提供免费的高清视频生成服务。这些竞争者都在追赶Sora的水准,而算力成本和优化能力是共同面临的挑战。
大模型行业正处在初期竞争阶段,如何将应用落地,降低成本是行业共同面临的课题。快手要想保持国内领先地位,仍需面临包括字节跳动等对手的严峻考验。追赶Sora,已成为大模型行业在2024年的主要任务之一,而视频生成大模型领域正逐渐成为各厂商竞争的新高地。
原文和模型
【原文链接】 阅读原文 [ 3592字 | 15分钟 ]
【原文作者】 蓝洞商业
【摘要模型】 glm-4
【摘要评分】 ★★★★★
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...