微软推出VASA-1:可生成会说话的,动态人物视频

AIGC动态7个月前发布 AIGCOPEN
915 0 0
微软推出VASA-1:可生成会说话的,动态人物视频

 

文章摘要


【关 键 词】 人物视频面部潜在空间音频驱动高效性能数字人主播

本文介绍了微软亚洲研究院推出的VASA-1,这是一个能够通过输入一张图片和一段音频生成表情丰富、细节逼真的动态人物视频的模型。根据演示效果,VASA-1能够以45fps生成512×512分辨率的视频帧,在在线流媒体环境中支持高达40fps的帧率,延迟仅为170ms,且只需一张英伟达的4090 GPU即可实现高效性能。这一技术在人物视频合成领域引起了广泛关注,与此类似的还有阿里巴巴的EMO、清华大学等联合开源的EMAGE、华为、腾讯的AniPortrait以及谷歌的VLOGGER模型。这些技术的应用包括数字人主播,比如“AI刘强东”在直播带货中取得了成功,销售额甚至超过了一些头部真人大主播。

VASA-1在构建面部潜在空间方面采用了一种新方法,将面部动态和头部运动综合建模为一个单一的潜在变量,通过视频数据训练了一个表达丰富且解耦的面部潜在空间,从而能够以更低的资源消耗捕捉到人类面部的细微表情和头部动作,生成逼真、表情丰富的动态人物视频。为了实现这一目标,VASA-1使用基于3D的辅助表示和一系列损失函数进行自监督或弱监督训练,学习到高度解耦和表达性的面部潜在表示,提供有效的控制。此外,VASA-1还能接受一组可选的控制信号,如脸部凝视方向、头部到相机的距离,以满足特定业务场景需求,如直播带货、博物馆讲解等。

另外,VASA-1还实现了音频驱动的面部生成,通过扩散模型从输入的音频中提取特征,包括音高、音量、语调等,然后使用扩散变换器生成面部动态的潜在代码。通过将额外的条件信号与音频特征一起输入到扩散变换器中,再结合面部解码器,VASA-1能够渲染出与音频同步的实时人物说话视频。在综合测试中,VASA-1在音频-唇部同步分数上表现最佳,SC和SD分数高于其他模型,接近真实视频的表现。这些技术的发展为人物视频合成领域带来了新的可能性,为各种应用场景提供了更加逼真、高效的解决方案。

原文和模型


【原文链接】 阅读原文 [ 1076字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...