旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包
文章摘要
【关 键 词】 AI视频生成、开源框架、旷视科技、人像合成、技术创新
旷视科技近期推出了一款名为MegActor的开源AI人像视频生成框架,该框架允许用户通过输入一张静态肖像图片和一段视频,生成表情丰富、动作一致的AI人像视频。MegActor生成的视频长度取决于给定的驱动视频长度,其面部细节呈现自然,画质出色。与市场上其他AI视频模型不同,MegActor选择开源,供开发者社区使用。
MegActor的泛化性表现在能够将不同视频模型中的人物肖像和视频进行组合,生成表情生动的视频。与阿里EMO的官方案例相比,MegActor也能生成近似的结果。MegActor由旷视研究院开发,该院是旷视科技的研究机构,致力于通过基础创新突破AI技术边界,并实现技术到产品的快速转化。
MegActor的训练数据全部来自公开可获取的开源数据集,确保了实际效果的可复现性。它采用原始图像进行驱动,以捕捉细致的表情和运动信息,这与多数厂商使用的方法不同。MegActor由两个阶段构成:ReferenceNet用于提取参考图像特征,PoseGuider则负责将运动和表情信息迁移到参考图像上。
使用原始视频进行驱动虽然能带来丰富的表情细节和运动信息,但也存在身份泄露和无关信息干扰的挑战。MegActor通过条件扩散模型,引入合成数据生成框架减轻身份泄露问题,并分割参考图像的前景和背景,使用CLIP对背景细节进行编码,确保背景稳定性。
在数据训练方面,旷视研究院团队使用公开数据集进行了超过700小时的训练,并采用换脸和风格化方法生成合成数据,提高对大范围动作和夸张表情的模仿能力。通过这些新的模型框架和训练方法,MegActor实现了根据输入视频生成任意持续时间的模仿视频,支持各种驱动视频和画风,且生成的视频自然程度与音频生成方法相当。
目前,MegActor已经完全开源,供广大开发者和用户使用。相关的论文、代码和项目地址也已提供,以便感兴趣的从业者可以从头开始完整复现这些效果。
原文和模型
【原文链接】 阅读原文 [ 3234字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★