模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 AI视频模型、EMO框架、音频驱动、肖像视频、阿里巴巴
摘要总结:
阿里推出了一款名为EMO的基于音频驱动的肖像视频生成框架,引起了广泛关注。用户只需提供一张参考图像和一段音频,即可生成表情生动的AI视频。这项技术不仅能够生成不同风格的肖像唱歌、说话,还能实现跨演员表演。例如,可以让蒙娜丽莎朗诵独白,或者让小李子表演rap。EMO的效果令人印象深刻,甚至有网友开始逐帧分析其生成视频的质量。
与Sora技术路线不同,EMO的骨干网络基于Stable Diffusion 1.5,而不是DiT架构。它由帧编码阶段和扩散阶段组成,能够生成任意持续时间的视频,同时保持角色身份一致性。EMO在训练数据方面构建了一个包含超过250小时视频和1500万张图像的数据集,支持多种语言和画风。
尽管EMO在口型同步质量上略逊于其他方法,但其在定量比较上取得了显著提升。然而,EMO的生成过程更耗时,且可能无意中生成其他身体部位。EMO团队来自阿里巴巴智能计算研究院,由Linrui Tian、Qi Wang、Bang Zhang和Liefeng Bo组成,其中Liefeng Bo是阿里巴巴通义实验室XR实验室负责人。
EMO的推出,标志着音频驱动视频合成技术的新高度,与Sora在文本驱动视频合成方面的突破相呼应。两者都没有加入显式的物理模型,却能在一定程度上模拟物理规律,这可能与Lecun的观点相悖,更支持Jim Fan的“数据驱动的世界模型”思想。随着计算规模的扩大,AI技术的进步正在实现突破性的进展。
One More Thing:
Sora代表了文本驱动视频合成的断崖式突破,而EMO则代表了音频驱动视频合成的新高度。两者的成功可能源于强化学习之父Sutton的“苦涩的教训”,即通过扩大计算规模来实现突破性的进展。随着这些技术的发展,我们离“发给AI一个剧本,输出整部电影”的目标越来越近。
原文信息
【原文链接】 阅读原文
【阅读预估】 1898 / 8分钟
【原文作者】 量子位
【作者简介】 追踪人工智能新趋势,关注科技行业新突破