智谱的视频模型来了，它远非Sora，但却让这家公司更像OpenAI｜对话智谱AI CEO 张鹏

1,063 0 0

文章摘要

智谱AI旗下的“智谱清言”App于7月26日推出了AI视频生成功能“清影”，面向所有用户开放，无需预约。清影基于智谱自研的视频生成大模型CogVideoX，技术优化后，理论上能在30秒内生成6秒长、1440×960分辨率的视频。该模型不同于Sora的DiT架构，采用融合文本、时间、空间三个维度的transformer架构，展示了写实风格、艺术风格、脑洞类等多种视频生成效果。

清影的视频生成模型在指令跟随方面表现出色，得益于智谱AI的语言模型所具备的语言理解能力。此外，清影整合了智谱清言的其他AI功能，提供从创意构思到成品发布的一站式服务，包括AI搜索收集素材、AI撰写文案和脚本、生成视频以及添加背景音乐等。对于不擅长写提示词的用户，智谱还提供了清影提示词智能体。但需要注意的是，目前所有文生视频大模型的输出具有不稳定性，可能需要多次尝试以获得满意结果。

智谱CEO张鹏表示，清影并非Sora级别的产品，而是智谱在多模态方向上的一个阶段性成果。智谱早在2021年就开始在多模态方向进行布局，发布了CogView、CogVideo、CogView3等成果。CogVideo采用了多帧率分层训练策略生成高质量视频片段，引起国际大厂的关注和引用。

在技术层面，清影模型的推理速度提升了6倍，通过自研的视频理解模型生成高度吻合的文本描述，提高了模型的指令遵循度。智谱的研究初步验证了scaling law在视频生成算法方面的有效性，并自研了一个高保真度、高流畅度的3D VAE，用于训练时的视频压缩，提高了内容连贯性。

视频生成模型背后的路线可分为两类：一类追求视频生成质量的天花板，另一类将视频生成定位为多模态方案的一部分，需要考虑视频与其他模态的融合。智谱更倾向于后者，张鹏强调了指令跟随能力、语言模型与视频能力的关系、新的架构以及视频模型对于追求通用问题解决的统一大模型的意义。智谱的视频生成模型设计上旨在融合文本、时间和空间三个维度，采用3D全注意力机制和3D RoPE位置编码，更有效地利用参数将视觉信息与语义信息对齐。

张鹏认为，统一建模和非统一建模的取舍是本质问题，智谱更看重统一建模。视频生成不仅是生成对象，也是模型理解能力和知识增长的重要部分。OpenAI和智谱对于AGI的信仰和追寻的路径相似，最终各种模态都将统一起来。