文章摘要
【关 键 词】 微软、Sora、Mora、视频生成、智能体框架
微软团队与理海大学联合开发出一种全新的多AI智能体框架——Mora,旨在复刻并扩展Sora的视频生成能力。
Mora通过整合多个视觉AI智能体,实现了文本到视频生成、基于文本条件的图像到视频生成、扩展已生成视频、视频到视频编辑、拼接视频以及模拟数字世界等多种任务。
实验结果显示,Mora在这些任务中的表现接近Sora,尤其在文本到视频生成任务中的表现超越了现有的开源模型,排名第二,仅次于Sora。
Mora的关键在于将视频生成过程分解为多个子任务,并为每个任务指派专门的智能体,以满足用户的多样化需求。
在推理过程中,Mora会生成一个中间图像或视频,保持文本到图像模型中的视觉多样性、风格和质量,并增强编辑功能。
通过高效地协调处理从文本到图像、从图像到图像、从图像到视频以及从视频到视频的转换任务的智能体,Mora能够处理一系列复杂的视频生成任务,提供出色的编辑灵活性和视觉真实度。
Mora定义了五种基本类型的智能体:提示选择与生成、文本到图像生成、图像到图像生成、图像到视频生成、以及视频到视频生成。每种智能体都有其专业领域的输出,例如,文本到图像生成智能体负责将丰富的文本描述转化为高质量的图像,图像到视频生成智能体负责将静态图像转化为动态视频。
然而,Mora也存在一些局限性,例如在涉及大量物体移动的场景中,生成的视频质量明显不高,质量随视频长度增加而降低,尤其是在超过12秒之后。此外,Mora还不能控制对象的运动方向,比如无法让对象向左或向右移动。这些局限主要是因为Mora的视频生成,是基于图像转视频的方法,而不是直接从文本提示中获取指令。
原文和模型
【原文链接】 阅读原文 [ 4214字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4-32k
【摘要评分】 ★☆☆☆☆