智谱AI杀入视频生成：「清影」上线，时长6秒，免费不限量

AI-Agent1年前 (2024)发布 almosthuman2014

2,636 0 0

文章摘要

智谱AI近期推出了一款名为「清影」的视频生成大模型，标志着公司在视频生成领域的重大进展。该模型能够根据用户简短的创意描述，在30秒内生成1440×960分辨率的高精度视频。用户可以通过清言App全方位体验「清影」的对话、图片、视频、代码和Agent生成功能，也可以在AI动态照片小程序上为手机照片添加动态效果。

「清影」生成的视频时长为6秒，所有用户均可免费使用。智谱AI表示，随着技术发展，「清影」的生成能力将很快应用于短视频制作、广告生成甚至电影剪辑等领域。在研发过程中，Scaling Law在算法和数据两方面发挥了重要作用，智谱AI CEO张鹏表示，随着算法和数据的不断迭代，相信Scaling Law将继续发挥其强大作用。

「清影」在风景、动物、科幻、人文历史等类型的视频内容生成上表现较好，擅长生成卡通风格、真实摄影风格、二次元动漫风格等视频。在实体类型呈现效果上，动物的表现优于植物、物品、建筑和人物。它既可以通过文字生成视频，也可以通过图片生成视频，生成风格涵盖奇幻动画风格。

除了文本生成视频，「清影」还支持图片生成视频，为用户带来了更多新玩法，如表情包梗图、广告制作、剧情创作、短视频创作等。同时，基于「清影」的”老照片动起来”小程序也将同步上线，用户只需上传老照片，AI即可让照片动起来。

「清影」依托于智谱AI大模型团队自研的新一代视频生成大模型CogVideoX。CogVideoX将文本、时间、空间三个维度融合起来，参考了Sora的算法设计，采用DiT架构，通过优化，推理速度提升了6倍。智谱AI自研了一个高效的三维变分自编码器结构，将原视频空间极致压缩到2%，大幅降低了模型训练成本和难度。

智谱AI还自研了一个端到端的视频理解模型，为海量视频数据生成详细、贴合内容的描述，构建了海量的高质量视频文本对，提高了训练出的模型的指令遵循度。此外，智谱AI通过expert adaptive layernorm对文本和视频特征空间进行分别处理，使模型能够高效利用参数将视觉信息与语义信息对齐。

随着「清影」的上线，视频生成赛道又迎来了智谱AI这位重磅玩家。除了个人用户可以体验的应用外，清影API也同步上线大模型开放平台bigmodel.cn，企业和开发者可以通过调用API体验和使用文生视频以及图生视频的模型能力。随着各家公司AI视频生成功能的不断上线，今年的生成式AI竞赛已经进入白热化阶段，为用户带来了更多的选择，无论是没有视频制作基础的人还是专业的内容创作者，都能借助大模型能力实现视频创作。