让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了
模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 AI、视频生成、EMO框架、音频-视频合成、面部表情
摘要:
机器之心报道了阿里巴巴智能计算研究院的EMO(Emote Portrait Alive)框架,这是一个音频-视频合成方法,用于生成表现力强、真实度高的说话人头部视频。EMO框架能够根据用户提供的音频片段生成面部表情,无需依赖3D模型或面部标志,从而提高了面部表情的丰富度和自然度。该技术在生成动态表情、支持不同语言歌曲、以及实现角色间联动方面表现出色。研究者通过关注音频提示与面部动作之间的联系,以及使用主干网络、ReferenceNet、音频层和速度层的网络Pipeline,实现了这一目标。训练策略分为图像预训练、视频训练和速度层集成三个阶段。实验结果表明,EMO在视频质量评估方面具有显著优势,能够生成更大范围的头部运动和更生动的面部表情。
详细摘要:
– 技术背景: 文章首先介绍了以OpenAI Sora为代表的文本生成视频模型,以及以人为中心的视频合成研究,特别是Talking Head视频生成技术。传统方法通过限制视频输出来简化任务,但这也限制了表情的自然度和丰富度。
– EMO框架: 阿里研究者提出了EMO框架,它直接利用音频-视频合成方法,无需中间3D模型或面部标志,以增强视频的真实度、自然度和表现力。EMO支持多种语言,能够识别音频的音调变化,生成动态表情丰富的AI角色化身。
– 方法概览: 给定单张参考图像,EMO能够生成与输入语音音频片段同步的视频,保留人物自然的头部运动和表情。通过创建无缝级联视频,模型有助于生成具有一致身份和连贯运动的长时间说话肖像视频。
– 网络Pipeline: 主干网络接收多帧噪声潜在输入,尝试去噪为连续视频帧。为了确保生成帧的连续性和人像ID一致性,研究者部署了ReferenceNet和音频层。为了使动作可控且稳定,使用了脸部定位器和速度层提供弱条件。
– 训练策略: 训练分为三个阶段:图像预训练、视频训练和速度层集成。实验结果表明,EMO在视频质量评估方面具有显著优势,能够生成更大范围的头部运动和更生动的面部表情。
– 实验结果: EMO与Wav2Lip、SadTalker、DreamTalk等方法相比,能够生成更清晰的嘴部区域、更生动的面部表情和更广泛的头部运动。此外,EMO还能处理具有明显音调特征的音频,生成更丰富的面部表情和动作。
重点内容:
– EMO框架的提出,使得AI生成的图像能够“动起来说话或唱歌”,提高了视频的真实感和表现力。
– 研究者通过关注音频提示与面部动作之间的联系,以及使用主干网络、ReferenceNet、音频层和速度层的网络Pipeline,实现了高质量的视频生成。
– 实验结果表明,EMO在视频质量评估方面具有显著优势,尤其是在处理具有明显音调特征的音频时。
原文信息
【原文链接】 阅读原文
【阅读预估】 1947 / 8分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台