阿里最新图生视频模型效果好得可比肩 Sora，但 0 代码“假”开源让国内外网友骂翻了天？

AIGC动态2年前 (2024)发布 admin

3,333 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

文章摘要

【关键词】 AI、图生视频、EMO、阿里巴巴、音频驱动

阿里巴巴集团智能计算研究院推出了一款名为EMO的AI 图生视频模型。

这个模型能够根据用户提供的一张照片和音频文件生成具有丰富面部表情和头部姿态的视频。

EMO模型的训练涉及了超过250小时的视频和1.5亿张图像，覆盖了多种语言和内容。

尽管EMO的相关论文已经发表，但其在GitHub上的同名仓库并未提供源码，引发了一些开发者的不满。

EMO的训练过程采用了扩散模型，并通过速度控制器和面部区域控制器来增强稳定性。

该模型的设计允许捕捉广泛且真实的面部表情，并与音频中的动态紧密匹配。

EMO在视频质量方面表现出色，尤其是在长时间、高音质音频片段的生成上。

然而，该方法在生成过程中可能产生其他身体部位的伪影，且耗时较长。

原文信息

【原文链接】 阅读原文
【阅读预估】 3146 / 13分钟
【原文作者】 InfoQ
【作者简介】 为一线互联网公司核心技术人员提供优质内容。科技圈的观察者，前沿技术的传播者。

# AIGC动态 # 图像生成 # 大模型 # 视频生成 # 音频生成 # AI # EMO # InfoQ # moonshot-v1-32k # 图生视频 # 月之暗面 # 阿里巴巴 # 音频驱动

文章版权归作者所有，未经允许请勿转载。

社区供稿 | RAG敲响丧钟？大模型长上下文是否意味着向量检索不再重要

硅星人Pro

2,229

Siri 跳票、iOS 强绑 AI，库克震怒换帅！大佬锐评：苹果高层都是快 70 岁老头儿，该换懂 AI 的年轻人上了

AI前线

1,539

解剖Sora：37页论文逆向工程推测技术细节，微软参与，华人团队出品

量子位

2,415

谷歌和阿里，都靠AI实现了逆袭 | 财经峰评

钛媒体AGI

170

人人都能当周杰伦！Suno作曲，ChatGPT写词，网友用Transformer造出神曲！

AI前线

2,718

OpenAI、谷歌等一线大模型科学家公开课，斯坦福CS 25春季上新！

机器之心

1,971

暂无评论

暂无评论...

阿里最新图生视频模型效果好得可比肩 Sora，但 0 代码“假”开源让国内外网友骂翻了天？

模型信息

文章摘要

原文信息

试了下 Stable Video，我的建议是不如不用｜AI 测评室

马斯克起诉OpenAI：他们做出了AGI还授权给微软，这是对创始协议赤裸裸的背叛

相关文章

暂无评论

热门网址

热门文章

阿里最新图生视频模型效果好得可比肩 Sora，但 0 代码“假”开源让国内外网友骂翻了天？

模型信息

文章摘要

原文信息

试了下 Stable Video，我的建议是不如不用｜AI 测评室

马斯克起诉OpenAI：他们做出了AGI还授权给微软，这是对创始协议赤裸裸的背叛

相关文章

暂无评论

Trac-AI IDE

星辰Agent

讯飞文书-办公助手

热门网址

热门文章