复刻Sora的通用视频生成能力，开源多智能体框架Mora来了

AIGC动态1年前 (2024)发布 almosthuman2014

1,866 0 0

文章摘要

何恺明的目标是探索面向复杂世界的智能。Sora是首个引起广泛关注的大规模通用视频生成模型，自OpenAI于2024年2月推出以来，没有其他视频生成模型能在性能或支持广泛视频生成任务的能力上与Sora匹敌。为了弥补这一差距，来自理海大学、微软研究院的研究者提出了一种多智能体框架Mora，该框架整合了几种先进的视觉AI智能体，以复制Sora所展示的通用视频生成能力。Mora能够在各种任务中成功模仿Sora的视频生成能力，如文本到视频生成、文本条件下的图像到视频生成、扩展生成的视频、视频到视频编辑、连接视频以及模拟数字世界。广泛的实验结果表明，Mora在各种任务中达到了接近Sora的性能。

Mora是一个面向视频生成的多智能体框架，通过将复杂的工作拆解为更小、更具体的任务，利用不同能力的智能体之间的协作来解决视频生成任务。该框架定义了五种基本角色：文本选择与生成智能体、文本到图像生成智能体、图像到图像生成智能体、图像到视频生成智能体和视频到视频智能体。Mora框架通过设定不同智能体的专长和工作方式，精心设计了六种文本到视频生成任务，展现了在视频生成领域的灵活应用和高度定制化。

在实验评估中，研究采用了多个指标来衡量Mora的性能，包括视频质量、对象一致性、背景一致性、动态程度、影像质量和时空风格一致性等。Mora在不同视频生成任务中的性能表现如下：

文本到视频生成：Mora在视频质量方面得分为0.792，接近Sora的0.797；对象一致性得分为0.95，与Sora相等；动态程度得分为0.70，略高于Sora的0.69。
文本条件下的图像到视频生成：Mora的视频与文本整合性得分为0.88，略低于Sora的0.90；动态程度得分为0.75，与Sora持平。
扩展生成的视频：Mora在时空一致性上的得分为0.94，略低于Sora的0.99；影像质量得分为0.39。
视频到视频编辑：Mora的影像质量得分为0.38，低于Sora的0.52。
连接视频：Mora在连接视频任务中的影像质量得分为0.42，低于Sora的0.52。
模拟数字世界：Mora的影像质量得分为0.52，略低于Sora的0.62；外观风格得分为0.23，与Sora持平。