被马斯克追更的可灵AI上线2.0模型，一句话就能拍电影的时代来了？

1,387 0 0

文章摘要

可灵AI在4月15日发布了全系模型的更新，包括可灵2.0视频生成模型和可图2.0图像生成模型，并同步推出了视频多模态编辑、图像局部重绘以及图像风格转绘三项新功能。此次更新引发了广泛关注，用户和社交平台上已经出现了大量使用效果的展示。有用户通过多模态编辑功能成功替换了视频中的主角，展示了自然的效果，甚至引发了“AI娱乐产业正飞速发展”的讨论，连马斯克也关注了可灵AI的官方账号。

在数据层面上，可灵2.0视频模型在团队内部的评测中表现出了显著的领先优势。与谷歌Veo2相比，其胜负比高达205%，而与OpenAI的Sora相比，更是达到了367%的胜负比。在图像生成领域，可图2.0与Midjourney V7等领先模型相比，胜负比最高超过300%。这些数据表明，可灵AI在视频和图像生成领域的技术水平已经达到了行业领先地位。

可灵2.0视频模型在语义响应、动态质量和画面美学方面都有了显著提升。例如，生成的视频在复杂动作和面部微表情的捕捉上更加精准，运镜效果也更加专业，时序响应上保持了高度连贯性和逻辑性。动态质量方面，复杂动作的完成度更高，物理合理性大幅提升，运动速度和幅度的优化也让视频更具沉浸感。画面美学上，新版本呈现出电影级的质感，色彩和光影效果更为高级，细节刻画更加丰富。

可图2.0图像生成模型在语义遵循能力和风格响应上也有了质的飞跃，能够响应近百种风格，画面更具电影质感。85%的用户采用了图生视频功能，进一步凸显了图像生成的重要性。此外，可灵AI还推出了三项创新功能：多模态编辑、图片编辑和风格转绘。多模态编辑功能允许用户通过输入图片或文字对视频进行灵活的修改和再创作，图片编辑功能支持局部重绘和多尺寸扩图，风格转绘功能则让用户能够一键转变图像风格。

可灵2.0的更新不仅提升了模型的基础能力，还通过功能层面的创新重新定义了人与AI的交互方式。多模态视觉语言（MVL）的引入，通过结合自然语言描述与多模态参考，大幅提升了创作指令的精准度，让AI更能理解创作者的想象。这种表达方式让不同类型的创作素材能够和谐共存于同一创作指令中，未来还可能扩展至声音、动作描述文件等更多模态。

可灵AI在视频生成赛道上始终保持着领先状态。去年发布的1.0版本吹响了视频生成赛道的起跑哨，而今年3月27日，可灵1.6pro在全球视频生成大模型榜单中以1000分的Arena ELO基准测试评分登顶图生视频赛道榜首。自去年6月发布以来，可灵AI已累计完成超过20次迭代，全球用户规模突破2200万，增速迅猛。

可灵AI的成功不仅在于技术的持续创新，还在于对用户需求的深入洞察。从1.0版本开始，可灵AI就保持着模型发布即可用的特点，迅速掀起了老照片修复潮，而2.0版本通过更强大的生成能力和更实用的交互方式，进一步降低了创作门槛。此外，快手还构建了完整的生态支撑体系，面向开发者和企业提供API接入服务，并与数千家国内外企业展开合作。在C端用户层面，可灵AI也构建起了AIGC创作-消费生态，展示了AI在内容创作领域的无限可能。

此次产品更新的同时，快手还推出了“可灵AI NextGen 新影像创投计划”，通过千万资金投入、全球宣发、IP打造和保障，进一步加大对AIGC创作者的扶持力度。持续的技术创新、实用的产品迭代和丰富的生态建设，是可灵AI保持领先优势的关键所在。正如快手高级副总裁盖坤所言，可灵AI的初心是让每个人都能用AI讲出好的故事，借助AI的力量，让更多人能够轻松表达自己的创意，讲述属于自己的故事的那一天，也许并不遥远。