一张图即出AI视频！谷歌全新扩散模型，让人物动起来

AIGC动态1年前 (2024)发布 AIera

1,762 0 0

文章摘要

【关键词】 谷歌研究、VLOGGER模型、视频生成、音频驱动、数据集MENTOR

谷歌的研究人员近期发布了一种名为VLOGGER的多模态扩散模型，该模型能够通过一张照片和一段音频直接生成人物说话的视频。VLOGGER模型的生成效果自然流畅，包括口型、表情、肢体动作等都非常自然。

VLOGGER模型建立在最近生成扩散模型的成功之上，包括一个将人类转成3D运动的模型，以及一个基于扩散的新架构，用于通过时间和空间控制，增强文本生成图像的效果。VLOGGER模型可以生成可变长度的高质量视频，并且这些视频可以通过人脸和身体的高级表示轻松控制。

与之前的同类模型相比，VLOGGER模型不需要针对个体进行训练，不依赖于面部检测和裁剪，而且包含了肢体动作、躯干和背景，构成了可以交流的正常的人类表现。在数据方面，研究人员收集了一个新的、多样化的数据集MENTOR，比之前的同类数据集大了整整一个数量级，其中训练集包括2200小时、800000个不同个体，测试集为120小时、4000个不同身份的人。

VLOGGER模型的目标是生成一个可变长度的逼真视频，来描绘目标人说话的整个过程，包括头部动作和手势。VLOGGER模型采用了基于随机扩散模型的两阶段管道，用于模拟从语音到视频的一对多映射。第一个网络将音频波形作为输入，以生成身体运动控制，负责目标视频长度上的凝视、面部表情和姿势。第二个网络是一个包含时间的图像到图像的平移模型，它扩展了大型图像扩散模型，采用预测的身体控制来生成相应的帧。

VLOGGER模型的应用之一是编辑现有视频。在这种情况下，VLOGGER会拍摄视频，并通过闭上嘴巴或眼睛等方式改变拍摄对象的表情。模型的主要应用之一是视频翻译。在这种情况下，VLOGGER会以特定语言拍摄现有视频，并编辑嘴唇和面部区域以与新音频（例如西班牙语）保持一致。