谷歌推出多模态视频模型，自动生成丰富动作视频

AIGC动态1年前 (2024)发布 AIGCOPEN

1,842 0 0

文章摘要

随着数字化经济的蓬勃发展，虚拟数字人的需求在各行业中日益增长。为了满足这一需求，谷歌研究人员推出了一款名为VLOGGER的多模态扩散模型，它能够通过用户输入的图像和语音生成带有语音和丰富动作的人物视频。VLOGGER的核心在于其创新的架构，它结合了文本生成图像模型与空间、时间控制，以提升视频生成的逼真度和动作的丰富性。

VLOGGER在多个数据集上经过综合测试，包括HDTF、TalkingHead-1KH和MENTOR，测试结果显示其在视频质量、物体还原性和时序一致性等方面的表现出色，同时还能生成丰富的上半身和手势动作。这些成果表明VLOGGER在虚拟数字人视频生成领域的先进性和实用性。

VLOGGER模型的创新之处在于其多阶段扩散模型架构。在第一阶段，模型使用随机扩散模型根据输入语音生成对应的人体运动轨迹，包括表情、姿势、视线和眨眼细节。接着，利用时空扩散架构将生成的人体运动轨迹和参考图像结合，实现完整的人物视频合成。VLOGGER的优势在于无需针对每个新人物重新训练模型，且不依赖人脸检测框选区域，直接生成完整目标图像。此外，模型还考虑了现实中的复杂交流场景，如可见躯干、不同身份等，这对正确合成有效交流的人物动作至关重要。

在语音生成阶段，VLOGGER采用了Transformer神经网络来处理音频波形输入，并生成一系列3D面部表情和身体姿势参数，这些参数用于控制虚拟人物在视频中的动作。为了获得逼真的运动效果，模型利用了一种统计的3D人体模型，能够精确捕捉面部表情、头部运动、眼球转动、眨眼以及手势等细节。通过预测基于参考图像的姿势残差，模型可以针对特定身份生成个性化的运动序列。

在人物生成阶段，VLOGGER在空间和时间上进行条件控制，以生成高质量、任意长度的视频。模型基于成熟的文本到图像扩散模型，并通过新颖的架构进行扩展，增加了时域卷积层，使其能够处理时序数据。此外，VLOGGER还引入了“时序外推”技术，允许模型迭代生成任意长度的视频片段，同时保持时序一致性。为了提高生成效果，模型采用了级联扩散方法，对基础分辨率的视频进行超分辨重建，生成高达512×512分辨率的高质量影像。

为了提高VLOGGER的泛化能力和安全性，研究人员构建了一个大规模训练数据集MENTOR，该数据集包含80万名不同身份的人物视频，总计超过2200小时，覆盖了不同年龄、肤色、体型和文化背景的人群。数据集中的视频均捕捉了单个人物在相机前交流的场景，并提供了相应的3D姿势和表情标注，这对于训练VLOGGER的多模态能力至关重要。

总结来说，VLOGGER模型的推出为虚拟数字人视频生成领域带来了革命性的进步，其多模态、多阶段的创新架构和技术，以及对复杂交流场景的深入考虑，使其成为了AIGC领域的一个重要里程碑。随着技术的不断发展和完善，VLOGGER有望在未来为多种应用场景提供更加逼真和高效的虚拟数字人解决方案。