文章摘要
【关 键 词】 人工智能、视频生成、技术领先、图像生成、创新应用
在世界人工智能大会上,快手公司展示了其最新的人工智能视频生成技术——可灵,并发布了该技术的一系列更新。可灵是全球首个用户可用的真实影像级视频生成大模型,自发布一个月以来,已有超过50万人申请使用,实际开放给超30万用户,生成了超过700万条短视频。这一技术不仅在国内受到广泛关注,也吸引了国际社会的注意,Stability AI的前CEO Emad Mostaque评价中国在这一领域已经遥遥领先。
快手并不满足于当前成就,他们推出了可灵Web端,提供了更高清画质的视频生成,同时增加了首尾帧控制和镜头控制功能,并将文生视频的时长开放到了10秒。此外,快手还开源了可图,这是一个文生图模型,能够生成高质量的图片,并且具有强大的语义跟随能力和广泛的应用场景。
可灵生成的视频质量高,符合物理规律,能够准确刻画大幅度运动。例如,可灵能够生成一只在公路上高速奔跑的老虎,画面连贯,动作协调,甚至能够展现奔跑过程中躯干部分的抖动。此外,可灵还具有强大的泛化能力,即使是在训练过程中很少见的素材,如水墨画,也能生成惟妙惟肖的运动效果。
在CVPR会议上,可灵新增了图生视频和视频续写两项功能。图生视频功能能够根据一张静态图片生成动态视频,而视频续写功能则可以不断延长已生成的视频,每次延长5秒,最长可达三分钟。
快手高级副总裁盖坤宣布,可灵再次迎来重磅更新,包括基础模型的升级,画质提升,以及新功能的增加。新版本可灵能够一次性生成10秒的视频,并且新增了首尾帧控制和镜头控制功能。这些更新进一步提升了可灵在运动生成、物理规律、视频画质、指令响应等方面的能力。
快手视觉生成与互动中心负责人万鹏飞深入剖析了可灵的技术方案,包括模型设计、数据保障、计算效率和能力拓展等方面。预计视频生成模型将为游戏、动画、泛视频行业带来新机遇,并有望作为世界模拟器,为具身智能提供互动仿真环境。
除了模型的升级和功能更新,快手还发布了可灵Web版本,方便用户在PC上创作和管理作品。Web界面整合了可图的图片生成功能,实现了可图与可灵的深度联动。可图在内部盲测和第三方测试中均取得了优异的成绩,展现了其高质量的图像生成能力和对中文的理解。
可图的上线和开源,将进一步推动图像生成技术的发展和应用。通过可灵和可图的结合,用户可以更加便捷地创作出高质量的视频和图片,满足多样化的创意需求。快手在人工智能领域的创新和开放,将为整个行业带来更多的可能性和机遇。
原文和模型
【原文链接】 阅读原文 [ 5634字 | 23分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★