文章摘要
【关 键 词】 AI视频生成、清影功能、多模态布局、视频理解模型、统一建模
智谱AI旗下的“智谱清言”App于7月26日推出了AI视频生成功能“清影”,面向所有用户开放,无需预约。清影基于智谱自研的视频生成大模型CogVideoX,技术优化后,理论上能在30秒内生成6秒长、1440×960分辨率的视频。该模型不同于Sora的DiT架构,采用融合文本、时间、空间三个维度的transformer架构,展示了写实风格、艺术风格、脑洞类等多种视频生成效果。
清影的视频生成模型在指令跟随方面表现出色,得益于智谱AI的语言模型所具备的语言理解能力。此外,清影整合了智谱清言的其他AI功能,提供从创意构思到成品发布的一站式服务,包括AI搜索收集素材、AI撰写文案和脚本、生成视频以及添加背景音乐等。对于不擅长写提示词的用户,智谱还提供了清影提示词智能体。但需要注意的是,目前所有文生视频大模型的输出具有不稳定性,可能需要多次尝试以获得满意结果。
智谱CEO张鹏表示,清影并非Sora级别的产品,而是智谱在多模态方向上的一个阶段性成果。智谱早在2021年就开始在多模态方向进行布局,发布了CogView、CogVideo、CogView3等成果。CogVideo采用了多帧率分层训练策略生成高质量视频片段,引起国际大厂的关注和引用。
在技术层面,清影模型的推理速度提升了6倍,通过自研的视频理解模型生成高度吻合的文本描述,提高了模型的指令遵循度。智谱的研究初步验证了scaling law在视频生成算法方面的有效性,并自研了一个高保真度、高流畅度的3D VAE,用于训练时的视频压缩,提高了内容连贯性。
视频生成模型背后的路线可分为两类:一类追求视频生成质量的天花板,另一类将视频生成定位为多模态方案的一部分,需要考虑视频与其他模态的融合。智谱更倾向于后者,张鹏强调了指令跟随能力、语言模型与视频能力的关系、新的架构以及视频模型对于追求通用问题解决的统一大模型的意义。智谱的视频生成模型设计上旨在融合文本、时间和空间三个维度,采用3D全注意力机制和3D RoPE位置编码,更有效地利用参数将视觉信息与语义信息对齐。
张鹏认为,统一建模和非统一建模的取舍是本质问题,智谱更看重统一建模。视频生成不仅是生成对象,也是模型理解能力和知识增长的重要部分。OpenAI和智谱对于AGI的信仰和追寻的路径相似,最终各种模态都将统一起来。
原文和模型
【原文链接】 阅读原文 [ 5991字 | 24分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★