AI视频又炸了！照片+声音变视频，阿里让Sora女主唱歌小李子说rap

AIGC动态2年前 (2024)发布 QbitAI

942 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

摘要总结：

阿里推出了一款名为EMO的基于音频驱动的肖像视频生成框架，引起了广泛关注。用户只需提供一张参考图像和一段音频，即可生成表情生动的AI视频。这项技术不仅能够生成不同风格的肖像唱歌、说话，还能实现跨演员表演。例如，可以让蒙娜丽莎朗诵独白，或者让小李子表演rap。EMO的效果令人印象深刻，甚至有网友开始逐帧分析其生成视频的质量。

与Sora技术路线不同，EMO的骨干网络基于Stable Diffusion 1.5，而不是DiT架构。它由帧编码阶段和扩散阶段组成，能够生成任意持续时间的视频，同时保持角色身份一致性。EMO在训练数据方面构建了一个包含超过250小时视频和1500万张图像的数据集，支持多种语言和画风。

尽管EMO在口型同步质量上略逊于其他方法，但其在定量比较上取得了显著提升。然而，EMO的生成过程更耗时，且可能无意中生成其他身体部位。EMO团队来自阿里巴巴智能计算研究院，由Linrui Tian、Qi Wang、Bang Zhang和Liefeng Bo组成，其中Liefeng Bo是阿里巴巴通义实验室XR实验室负责人。

EMO的推出，标志着音频驱动视频合成技术的新高度，与Sora在文本驱动视频合成方面的突破相呼应。两者都没有加入显式的物理模型，却能在一定程度上模拟物理规律，这可能与Lecun的观点相悖，更支持Jim Fan的“数据驱动的世界模型”思想。随着计算规模的扩大，AI技术的进步正在实现突破性的进展。

One More Thing：

Sora代表了文本驱动视频合成的断崖式突破，而EMO则代表了音频驱动视频合成的新高度。两者的成功可能源于强化学习之父Sutton的“苦涩的教训”，即通过扩大计算规模来实现突破性的进展。随着这些技术的发展，我们离“发给AI一个剧本，输出整部电影”的目标越来越近。