智谱上线视频生成模型：30秒生成6秒时长，免费不限次！B 站也有研发功劳？

AIGC动态1年前 (2024)发布 ai-front

2,728 0 0

文章摘要

智谱 AI 推出了一款名为清影（Ying）的 AI 生成视频模型，该模型能够基于任意文字生成视频。用户可以通过输入文本提示（Prompt），选择不同的风格，如卡通3D、黑白、油画、电影感等，生成视频片段。清影（Ying）还支持图片生成视频，为用户带来表情包梗图、广告制作、剧情创作、短视频创作等新玩法。此外，清影的“老照片动起来”小程序也同步上线，用户只需上传老照片，即可让照片动起来。

清影（Ying）的底座视频生成模型是 CogVideoX，它将文本、时间和空间三个维度融合，参考了 Sora 的算法设计。CogVideoX 采用 DiT 架构，通过优化，推理速度比前代提升了 6 倍。智谱 AI 还自研了端到端视频理解模型，增强了模型的文本理解和指令遵循能力。在内容连贯性上，智谱 AI 自研了高效三维变分自编码器结构（3D VAE），将原视频空间压缩至 2% 大小，配合 3D RoPE 位置编码模块，更有利于捕捉帧间关系，建立视频中的长程依赖。

清影（Ying）API 已上线大模型开放平台 bigmodel.cn，企业和开发者可以通过调用 API 的方式，体验和使用文生视频以及图生视频的模型能力。在首发测试期间，所有用户均可免费使用，不限次数。之后，用户可以选择付费 5 元解锁一天的高速通道权益，或付费 199 元解锁一年的付费高速通道权益。

智谱 AI 的生成式视频研发得到了北京市的大力支持，海淀区为智谱 AI 提供了产业投资、算力补贴、应用场景示范、人才等全方位支持。算力支持则来自于亦庄集群，北京亦庄人工智能公共算力平台已建成。合作伙伴 bilibili 和华策影视也参与了清影的研发过程。