阿里最新图生视频模型效果好得可比肩 Sora,但 0 代码“假”开源让国内外网友骂翻了天?

AIGC动态9个月前发布 admin
1,060 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

阿里最新图生视频模型效果好得可比肩 Sora,但 0 代码“假”开源让国内外网友骂翻了天?
 

文章摘要


【关 键 词】 AI图生视频EMO阿里巴巴音频驱动

阿里巴巴集团智能计算研究院推出了一款名为EMOAI图生视频模型。

这个模型能够根据用户提供的一张照片和音频文件生成具有丰富面部表情和头部姿态的视频。

EMO模型的训练涉及了超过250小时的视频和1.5亿张图像,覆盖了多种语言和内容。

尽管EMO的相关论文已经发表,但其在GitHub上的同名仓库并未提供源码,引发了一些开发者的不满。

EMO的训练过程采用了扩散模型,并通过速度控制器和面部区域控制器来增强稳定性。

该模型的设计允许捕捉广泛且真实的面部表情,并与音频中的动态紧密匹配。

EMO在视频质量方面表现出色,尤其是在长时间、高音质音频片段的生成上。

然而,该方法在生成过程中可能产生其他身体部位的伪影,且耗时较长。

原文信息


【原文链接】 阅读原文
【阅读预估】 3146 / 13分钟
【原文作者】 InfoQ
【作者简介】 为一线互联网公司核心技术人员提供优质内容。科技圈的观察者,前沿技术的传播者。

© 版权声明

相关文章

暂无评论

暂无评论...