央视点赞国产AI复活召唤术，兵马俑竟与宝石老舅对唱Rap？

AIGC动态1年前 (2024)发布 almosthuman2014

2,476 0 0

文章摘要

阿里巴巴通义实验室开发的EMO技术，通过一张图片和一段音频，能够生成与音频同步的生动视频。这项技术在央视《2024中国·AI盛典》中成功”复活”了北宋文学家苏轼，与李玉刚合唱《水调歌头》，展现了古朴自然的动作。EMO技术的关键创新是”弱控制设计”，直接从音频中提取信息生成表情和嘴唇同步视频，无需3D建模或人脸关键点标记，降低了视频生成成本，提升了质量。

EMO技术面对的是视频生成领域的难题——基于音频驱动的人物视频生成。此前的方法需要先进行3D建模或人脸关键点标记，再生成视频，但这样可能导致音频信息损失，影响情绪表达。而EMO通过弱控制设计，直接从音频生成视频，保持了音频信息的完整性，使生成的视频表情丰富、自然流畅。

为了训练EMO模型，研究团队构建了一个超过250小时视频和1.5亿张图像的庞大数据集，涵盖多种语言和丰富的人类表达。在训练过程中，团队采用了高保真数据编码算法，尽可能保持原始信息的细节和动态范围。这使得EMO能够很好地展现人物情绪，如兵马俑和宝石Gem同框对唱《从军行》时，歌声中的情感得到了很好的呈现。

EMO的成功，不仅体现了通义实验室在视频生成领域的技术实力，更预示着视频生成技术落地的加速。目前，视频内容呈现爆发式增长，人们期待出现一个”可用”且”实用”的AI视频生成平台。EMO技术高度符合人物视频创作对内容连贯性和一致性的需求，展示了广阔的应用空间。

视频生成技术的下一个挑战是攻克专业级内容。科技公司希望将AI技术转化为生产力工具，服务短视频博主、影视制作人等。而EMO技术对于音频时长的包容度高，生成内容质量可达演播标准，如央视”兵马俑唱演”全程四分钟无需人工后期调整。这使得以EMO为代表的人物视频生成技术成为最接近”专业级生成水准”的落地方向之一。

通义实验室是国内最早布局视频生成技术的机构之一，已形成包括人物动作、换装、角色替换、唱演等在内的完整研究矩阵。实验室认为，当前的语言模型、图像/视频生成模型都未超越统计机器学习框架，对弱关系的学习仍不足。未来视频生成领域将出现多种技术路线，每种路线都有适合的应用场景。实验室将继续探索，推动视频生成技术的发展和落地。