视频生成赛道再添「猛将」，智谱清影正式上线

AIGC动态1年前 (2024)发布 aitechtalk

2,492 0 0

文章摘要

智谱公司在视频生成领域取得了显著进展，成为国内估值超过200亿的大模型公司中首家发布视频生成成果的团队。该公司推出的AI视频生成功能“清影”（Ying）正式上线，支持文本生成视频（文生视频）和图像生成视频（图生视频），在6秒视频生成方面表现出色，仅需30秒即可完成。清影功能已在智谱清言平台开放内测，支持PC、APP及小程序，视频分辨率达到1440p。

清影功能允许用户输入文本提示（Prompt），选择生成风格，如卡通3D、黑白、油画、电影感等，并可叠加音乐，生成具有特定风格的视频。此外，清影还提供图生视频功能，包括表情包梗图、广告制作、剧情创作、短视频创作等。特别值得一提的是，清影的“老照片动起来”小程序，能够使老照片“复活”并自动上色。

智谱的清影功能基于自研的视频生成大模型CogVideoX，该模型通过优化提升了推理速度，并在文本、时间、空间三个维度上进行融合。智谱还自研了三维变分自编码器结构、端到端视频理解模型以及融合文本和视频的transformer架构，以提高视频生成的质量和效率。

智谱在多模态大模型技术方面有着深厚的积累，此前已发布文生图大模型CogView系列和文生视频大模型CogVideo。公司在2023年推出了千亿开源基座对话模型ChatGLM，并迅速迭代至GLM-4。智谱GLM大模型团队认为，文本是构建大模型的关键基础，未来技术突破方向之一是原生多模态大模型。在生成式视频模型的研发中，Scaling Law在算法和数据两方面将继续发挥作用，智谱正积极探索更高效的scaling方式。