霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

AIGC动态1年前 (2024)发布 QbitAI

2,564 0 0

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

文章摘要

Hallo是一种基于分层音频驱动视觉合成模块的开源项目，由复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成。该项目的主要贡献是提出了一种分层的音频驱动视觉合成方法，通过将人脸划分为嘴唇、表情和姿态三个区域，分别学习它们与音频的对齐关系，再通过自适应加权将这三个注意力模块的输出融合在一起，从而更精细地建模音视频同步。

在定量评估方面，Hallo在多个指标上表现最优，包括FID、FVD、Sync-C和E-FID等。在增强唇部同步的同时，Hallo保持了高保真视觉生成和时间一致性。此外，Hallo还在CelebV数据集上展示了最低的FID和FVD以及最高Sync-C。

在定性评估方面，Hallo展示了对不同风格人像的驱动生成能力，体现了该方法的泛化和鲁棒性。例如，它可以很好地处理自建Wild数据集上的图像，并在不同的人像风格之间进行转换。

总的来说，Hallo是一种创新的音视频同步生成方法，具有很高的实用价值和研究价值。