
文章摘要
【关 键 词】 AI、视频生成、图像生成、技术创新、创意表达
可灵 AI 于 4 月 15 日在北京中关村国际创新中心举行了「灵感成真」2.0 模型发布会,正式面向全球发布了可灵 2.0 视频生成模型和可图 2.0 图像生成模型。自去年 6 月发布以来,可灵 AI 已完成超过 20 次迭代,全球用户规模突破 2200 万,累计生成 1.68 亿个视频和 3.44 亿张图片素材。可灵 2.0 模型在动态质量、语义响应、画面美学等维度保持全球领先,而可图 2.0 模型在指令遵循、电影质感及艺术风格表现方面显著提升。在文生视频领域,可灵 2.0 对比谷歌 Veo2 和 Sora 的胜负比分别达到 205% 和 367%,展现出显著优势。
可灵 AI 致力于提升模型基础质量,增强画质清晰度,并引入更多创新功能以满足用户多样化需求。快手高级副总裁盖坤表示,可灵 AI 的目标是让每个人都能用 AI 讲出好故事,实现更加精准的复杂创意表达。为此,可灵 AI 推出了全新的交互理念 Multi-modal Visual Language(MVL),让用户能够结合图像、视频等多模态信息,将复杂的创意直接高效地传达给 AI。MVL 由 TXT(语义骨架)和 MMW(多模态描述子)组成,能够从基础方向和精细控制两个层面实现创意的精准表达。
基于 MVL 理念,可灵 AI 推出了多模态编辑功能,用户可以通过图像、视频、声音等多种方式输入创意,生成符合自己想法的视频。这一功能不仅局限于图片和视频,还可以引入声音、运动轨迹等模态信息,进一步丰富用户的表达方式。此外,可灵 2.0 大师版在语义响应、动态质量、画面美学等方面显著提升,全面升级了视频及图像创作的可控生成与编辑能力,支持通过图片或文字对视频内容进行元素的增加、删减和替换,帮助创作者实现更加灵活的二次编辑。
在图像生成领域,可图 2.0 在复杂语义理解、电影级画面质感、多条件可控风格化生成等方面处于行业领先水平。可图 2.0 支持 60 多种风格化效果转绘,并上线了局部重绘、扩图等实用功能,用户可以通过上传图片和风格描述一键切换艺术风格,同时保留原图的语义内容。这些功能显著提升了图像生成的创意和想象力。
可灵 AI 不仅面向 C 端用户,还为 B 端企业提供 API 接入服务,已与小米、亚马逊云科技、阿里云等数千家企业建立了合作关系。超 1.5 万开发者将可灵的 API 应用于不同行业场景,累计生成 1200 万张图片和 4000 万个视频素材。AIGC 技术的迅猛发展正在重构广告营销、专业创作、影视娱乐等多个行业。例如,二次元 AI 创作社区狸谱通过可灵 AI 实现了创新突破,成功接入「动态 LIVE」和「新春萌偶摇」两大功能,未来双方将共同打造动画模型,推动 AI 成为内容引擎。
为了进一步激发 AI 创作热情,可灵 AI 发起了「可灵 AI NextGen 新影像创投计划」,通过千万资金投入、全球宣发、IP 打造等方式扶持 AIGC 创作者。该计划将邀请全球用户共同打造首支用户共创 AI 创意短片,并在上海、香港、东京等世界多地广告大屏展示。盖坤表示,可灵 AI 将持续推动技术创新,帮助用户实现复杂创意的精确表达,让每个人都能用 AI 讲出好的故事。
原文和模型
【原文链接】 阅读原文 [ 2681字 | 11分钟 ]
【原文作者】 极客公园
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★