文章摘要
【关 键 词】 AI视频生成、文本提示、风格多样、视频理解、产业支持
智谱 AI 推出了一款名为清影(Ying)的 AI 生成视频模型,该模型能够基于任意文字生成视频。用户可以通过输入文本提示(Prompt),选择不同的风格,如卡通3D、黑白、油画、电影感等,生成视频片段。清影(Ying)还支持图片生成视频,为用户带来表情包梗图、广告制作、剧情创作、短视频创作等新玩法。此外,清影的“老照片动起来”小程序也同步上线,用户只需上传老照片,即可让照片动起来。
清影(Ying)的底座视频生成模型是 CogVideoX,它将文本、时间和空间三个维度融合,参考了 Sora 的算法设计。CogVideoX 采用 DiT 架构,通过优化,推理速度比前代提升了 6 倍。智谱 AI 还自研了端到端视频理解模型,增强了模型的文本理解和指令遵循能力。在内容连贯性上,智谱 AI 自研了高效三维变分自编码器结构(3D VAE),将原视频空间压缩至 2% 大小,配合 3D RoPE 位置编码模块,更有利于捕捉帧间关系,建立视频中的长程依赖。
清影(Ying)API 已上线大模型开放平台 bigmodel.cn,企业和开发者可以通过调用 API 的方式,体验和使用文生视频以及图生视频的模型能力。在首发测试期间,所有用户均可免费使用,不限次数。之后,用户可以选择付费 5 元解锁一天的高速通道权益,或付费 199 元解锁一年的付费高速通道权益。
智谱 AI 的生成式视频研发得到了北京市的大力支持,海淀区为智谱 AI 提供了产业投资、算力补贴、应用场景示范、人才等全方位支持。算力支持则来自于亦庄集群,北京亦庄人工智能公共算力平台已建成。合作伙伴 bilibili 和华策影视也参与了清影的研发过程。
原文和模型
【原文链接】 阅读原文 [ 2087字 | 9分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆