轻松让张国荣、赫本唱歌,阿里推出创新视频模型EMO

AIGC动态9个月前发布 AIGCOPEN
1,275 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

轻松让张国荣、赫本唱歌,阿里推出创新视频模型EMO
 

文章摘要


【关 键 词】 AIGCEMOAI视频模型表情生成市场研究

本文介绍了阿里巴巴集团AI研究院推出的创新性视频模型——EMO

该模型能够通过用户提供的图像和音频生成表情丰富的视频,如让张国荣唱歌或让赫本唱《Perfect》。

EMO的视频生成效果在嘴型和背景音乐的契合度、表情丰富度以及视频时长方面表现出色,但目前无法改变原始姿态。

EMO的核心框架是扩散模型,它通过稳定控制机制、时间模块、参考编码和音频编码等技术实现高质量的视频生成。

训练流程包括图像预训练、视频训练和速度微调三个阶段,使用了超过250小时的多语言素材。

在HDTF数据集上的测试显示,EMO的性能超过了其他领先的AI产品。

原文信息


【原文链接】 阅读原文
【阅读预估】 1159 / 5分钟
【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

© 版权声明

相关文章

暂无评论

暂无评论...