文章摘要
【关 键 词】 AI创作、视频生成、快手项目、技术革新、内容生态
2023年10月,快手公司重新启动了名为“噗叽”的项目,这是一个利用AI技术将静态图片转换成2秒GIF表情包的工具。尽管最初并未引起广泛关注,但该项目可视为“可灵”的前身。“可灵”是一款视频生成工具,发布三个月后,申请体验的用户数已超过70万,累计生成视频作品达700万份。
2024年2月,一款名为Sora的视频生成工具的成功,激发了快手视觉算法团队负责人万鹏飞探索DiT(Diffusion Transformer)新型视频生成架构的兴趣。3月初,万鹏飞的想法得到了快手高级副总裁盖坤的支持,随后带领团队开始研发。5月份,尽管尚未确定产品名称和上线时间,但技术团队已经着手打造视频生成模型。
“可灵”的成功归功于一个由20余人组成的小团队,其中大部分核心成员是万鹏飞早年的队友。万鹏飞本人在视觉算法领域有着深厚的背景,发表了多篇论文。2024年6月6日,“可灵”上线当天,团队公开发表了一篇论文,详细介绍了技术细节。7月3日的另一篇论文则展示了如何生成更准确、清晰的长视频。
快手能够快速打造“可灵”的原因有三:一是公司拥有大量干净、整理良好的数据;二是有强大的算法团队;三是拥有足够的计算资源。此外,公司高层对项目给予了全力支持,使得团队能够快速推进研发。
“可灵”的开发遵循“快、糙、猛”的原则,即快速开发、不纠结技术细节、用资金解决问题。团队一周工作六天,享有公司最好的资源。此外,快手与英伟达的深度合作也为项目的快速推进提供了支持。
“可灵”不仅是一个面向C端的创作工具,更是快手集团战略级产品。其目的是服务于快手的内容和电商生态,为AIGC时代的短视频产品形态探索新的可能。上线后,迅速吸引了大量新“AI创作者”,并可能为这些创作者提供流量支持。同时,可灵也在电商领域展现出潜力,帮助解决素材不足的问题。
尽管“可灵”已经取得了初步成功,但随着用户规模的扩大,算力和能源成本的压力也在增加。此外,生成效果的稳定性仍有待提高。尽管如此,“可灵”的推出只是快手技术长跑的开始,未来还有更大的发展空间。
原文和模型
【原文链接】 阅读原文 [ 3438字 | 14分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★