华为、腾讯开源AniPortrait:用音频、图片生成会说话的视频

AIGC动态6个月前发布 AIGCOPEN
1,138 0 0
华为、腾讯开源AniPortrait:用音频、图片生成会说话的视频

 

文章摘要


【关 键 词】 AI视频生成面部网格预测音频同步开源模型AIGC创新

华为和腾讯的研究人员联合开发了一种创新的视频模型AniPortrait,该模型能够通过音频和人物图片自动生成与音频同步的视频。

AniPortrait的核心框架分为两大块:Audio2Lmk音频提取模块和Lmk2Video视频生成模块

AniPortrait的Audio2Lmk模块通过两个并行的小型网络学习3D面部网格序列和头部姿态序列

在训练阶段,研究人员使用了内部采集的高质量演员语音和公开的人脸数据集HDTF,通过监督学习提升了从语音到3D面部表情和头部姿态的高精度映射。

Lmk2Video模块使用了目前在人物生成视频领域表现较好的模型AnimateAnyone,并对其进行了改良

AniPortrait的开源地址为:https://github.com/Zejun-Yang/AniPortrait,论文地址为:https://arxiv.org/abs/2403.17694。与阿里集团发布的EMO模型和谷歌发布的VLOGGER相比,AniPortrait的优势在于其开源性,便于开发者和研究者进行进一步的研究和应用

AniPortrait的发布为AIGC领域的专业社区带来了新的关注点,其在音频同步视频生成方面的创新技术有望推动大语言模型(LLM)的发展和应用落地。同时,AniPortrait的开源特性也将促进AIGC开发者生态的建设,为市场研究和技术创新提供更多可能性

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1468字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...