一张图即出AI视频!谷歌全新扩散模型,让人物动起来

AIGC动态9个月前发布 AIera
786 0 0
一张图即出AI视频!谷歌全新扩散模型,让人物动起来

 

文章摘要


【关 键 词】 谷歌研究VLOGGER模型视频生成音频驱动数据集MENTOR

谷歌的研究人员近期发布了一种名为VLOGGER的多模态扩散模型,该模型能够通过一张照片和一段音频直接生成人物说话的视频。VLOGGER模型的生成效果自然流畅,包括口型、表情、肢体动作等都非常自然。

VLOGGER模型建立在最近生成扩散模型的成功之上,包括一个将人类转成3D运动的模型,以及一个基于扩散的新架构,用于通过时间和空间控制,增强文本生成图像的效果。VLOGGER模型可以生成可变长度的高质量视频,并且这些视频可以通过人脸和身体的高级表示轻松控制。

与之前的同类模型相比,VLOGGER模型不需要针对个体进行训练,不依赖于面部检测和裁剪,而且包含了肢体动作、躯干和背景,构成了可以交流的正常的人类表现。在数据方面,研究人员收集了一个新的、多样化的数据集MENTOR,比之前的同类数据集大了整整一个数量级,其中训练集包括2200小时、800000个不同个体,测试集为120小时、4000个不同身份的人。

VLOGGER模型的目标是生成一个可变长度的逼真视频,来描绘目标人说话的整个过程,包括头部动作和手势。VLOGGER模型采用了基于随机扩散模型的两阶段管道,用于模拟从语音到视频的一对多映射。第一个网络将音频波形作为输入,以生成身体运动控制,负责目标视频长度上的凝视、面部表情和姿势。第二个网络是一个包含时间的图像到图像的平移模型,它扩展了大型图像扩散模型,采用预测的身体控制来生成相应的帧。

VLOGGER模型的应用之一是编辑现有视频。在这种情况下,VLOGGER会拍摄视频,并通过闭上嘴巴或眼睛等方式改变拍摄对象的表情。模型的主要应用之一是视频翻译。在这种情况下,VLOGGER会以特定语言拍摄现有视频,并编辑嘴唇和面部区域以与新音频(例如西班牙语)保持一致。

原文和模型


【原文链接】 阅读原文 [ 1889字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...