模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆
文章摘要
阿里巴巴集团智能计算研究院推出了一款名为EMO的AI图生视频模型。
这个模型能够根据用户提供的一张照片和音频文件生成具有丰富面部表情和头部姿态的视频。
EMO模型的训练涉及了超过250小时的视频和1.5亿张图像,覆盖了多种语言和内容。
尽管EMO的相关论文已经发表,但其在GitHub上的同名仓库并未提供源码,引发了一些开发者的不满。
EMO的训练过程采用了扩散模型,并通过速度控制器和面部区域控制器来增强稳定性。
该模型的设计允许捕捉广泛且真实的面部表情,并与音频中的动态紧密匹配。
EMO在视频质量方面表现出色,尤其是在长时间、高音质音频片段的生成上。
然而,该方法在生成过程中可能产生其他身体部位的伪影,且耗时较长。
原文信息
【原文链接】 阅读原文
【阅读预估】 3146 / 13分钟
【原文作者】 InfoQ
【作者简介】 为一线互联网公司核心技术人员提供优质内容。科技圈的观察者,前沿技术的传播者。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...