文章摘要
【关 键 词】 谷歌研究、VLOGGER模型、视频生成、音频驱动、数据集MENTOR
谷歌的研究人员近期发布了一种名为VLOGGER的多模态扩散模型,该模型能够通过一张照片和一段音频直接生成人物说话的视频。VLOGGER模型的生成效果自然流畅,包括口型、表情、肢体动作等都非常自然。
VLOGGER模型建立在最近生成扩散模型的成功之上,包括一个将人类转成3D运动的模型,以及一个基于扩散的新架构,用于通过时间和空间控制,增强文本生成图像的效果。VLOGGER模型可以生成可变长度的高质量视频,并且这些视频可以通过人脸和身体的高级表示轻松控制。
与之前的同类模型相比,VLOGGER模型不需要针对个体进行训练,不依赖于面部检测和裁剪,而且包含了肢体动作、躯干和背景,构成了可以交流的正常的人类表现。在数据方面,研究人员收集了一个新的、多样化的数据集MENTOR,比之前的同类数据集大了整整一个数量级,其中训练集包括2200小时、800000个不同个体,测试集为120小时、4000个不同身份的人。
VLOGGER模型的目标是生成一个可变长度的逼真视频,来描绘目标人说话的整个过程,包括头部动作和手势。VLOGGER模型采用了基于随机扩散模型的两阶段管道,用于模拟从语音到视频的一对多映射。第一个网络将音频波形作为输入,以生成身体运动控制,负责目标视频长度上的凝视、面部表情和姿势。第二个网络是一个包含时间的图像到图像的平移模型,它扩展了大型图像扩散模型,采用预测的身体控制来生成相应的帧。
VLOGGER模型的应用之一是编辑现有视频。在这种情况下,VLOGGER会拍摄视频,并通过闭上嘴巴或眼睛等方式改变拍摄对象的表情。模型的主要应用之一是视频翻译。在这种情况下,VLOGGER会以特定语言拍摄现有视频,并编辑嘴唇和面部区域以与新音频(例如西班牙语)保持一致。
原文和模型
【原文链接】 阅读原文 [ 1889字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★