文章摘要
【关 键 词】 AI视频生成、图像质量、语义理解、运动笔刷、用户增长
备受瞩目的「草莓大模型」o1正式发布,预示着大模型领域的竞争将更加激烈。与此同时,视频生成领域的「卷王」可灵AI也迎来了其1.5版本的内测,这一新模型在图像质量、美学表现、运动合理性以及语义理解方面都有显著提升。自6月发布以来,可灵AI已经经历了九次迭代和升级,显示出其在视频生成领域的快速进步。
可灵AI 1.5版本在清晰度上有了显著提升,生成视频的分辨率可达1080p,而之前的1.0版本为720p。这使得视频中的细节,如衣物质地和手包纹路,都更加细腻。此外,1.5版本在处理复杂场景和人物细节方面也有所增强,例如在生成的视频中,同方向行走的人群增多,这不仅增加了人脸画面的生成,也提高了人物细节的复杂度。
在语义理解方面,1.5版本能够更准确地理解Prompt,例如在生成的视频中,女主角的眼神能够更符合描述地缓慢看向镜头。此外,1.5版本在运动表现的合理性上也有了显著提升,如在处理「杯中帆船」场景时,能够更好地理解「杯子」这一限制条件,并生成更加真实的动画效果。
可灵AI 1.5版本还引入了「运动笔刷」功能,这一功能允许用户通过勾勒图片中需要控制运动的部分并指定运动方向,从而更精确地控制视频内容。这使得视频生成过程更加可控,创作者可以将真实世界的规则更好地应用到生成的视频中。
除了模型生成能力的提升,可灵AI 1.5版本还针对创作者的使用痛点进行了优化,如提高了视频生成的效率,支持一次性生成最多4条视频,并扩展了视频时长支持,从原本的5秒扩充到了10秒。这些改进为用户提供了更多的选择空间和创作可能性。
可灵AI的用户群体已经达到了260万,这表明其在用户中的受欢迎程度。随着1.5版本的推出,可灵AI在视频生成领域的潜力将进一步释放,为用户提供更加丰富和高质量的视频内容。
原文和模型
【原文链接】 阅读原文 [ 5709字 | 23分钟 ]
【原文作者】 极客公园
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★