央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

 

文章摘要


【关 键 词】 EMO技术视频生成弱控制设计AI盛典人物表情

阿里巴巴通义实验室开发的EMO技术,通过一张图片和一段音频,能够生成与音频同步的生动视频。这项技术在央视《2024中国·AI盛典》中成功”复活”了北宋文学家苏轼,与李玉刚合唱《水调歌头》,展现了古朴自然的动作。EMO技术的关键创新是”弱控制设计”,直接从音频中提取信息生成表情和嘴唇同步视频,无需3D建模或人脸关键点标记,降低了视频生成成本,提升了质量。

EMO技术面对的是视频生成领域的难题——基于音频驱动的人物视频生成。此前的方法需要先进行3D建模或人脸关键点标记,再生成视频,但这样可能导致音频信息损失,影响情绪表达。而EMO通过弱控制设计,直接从音频生成视频,保持了音频信息的完整性,使生成的视频表情丰富、自然流畅。

为了训练EMO模型,研究团队构建了一个超过250小时视频和1.5亿张图像的庞大数据集,涵盖多种语言和丰富的人类表达。在训练过程中,团队采用了高保真数据编码算法,尽可能保持原始信息的细节和动态范围。这使得EMO能够很好地展现人物情绪,如兵马俑和宝石Gem同框对唱《从军行》时,歌声中的情感得到了很好的呈现。

EMO的成功,不仅体现了通义实验室在视频生成领域的技术实力,更预示着视频生成技术落地的加速。目前,视频内容呈现爆发式增长,人们期待出现一个”可用”且”实用”的AI视频生成平台。EMO技术高度符合人物视频创作对内容连贯性和一致性的需求,展示了广阔的应用空间。

视频生成技术的下一个挑战是攻克专业级内容。科技公司希望将AI技术转化为生产力工具,服务短视频博主、影视制作人等。而EMO技术对于音频时长的包容度高,生成内容质量可达演播标准,如央视”兵马俑唱演”全程四分钟无需人工后期调整。这使得以EMO为代表的人物视频生成技术成为最接近”专业级生成水准”的落地方向之一。

通义实验室是国内最早布局视频生成技术的机构之一,已形成包括人物动作、换装、角色替换、唱演等在内的完整研究矩阵。实验室认为,当前的语言模型、图像/视频生成模型都未超越统计机器学习框架,对弱关系的学习仍不足。未来视频生成领域将出现多种技术路线,每种路线都有适合的应用场景。实验室将继续探索,推动视频生成技术的发展和落地。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3281字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...