Sora复刻版来了，微软参与，华人团队打造

AI-Agent1年前 (2024)发布 QbitAI

2,130 0 0

文章摘要

这篇文章介绍了一种名为Mora的多智能体框架，是对Sora的复刻版。
Mora具有多种功能，包括文本转视频、视频编辑、视频拼接、模拟数字世界等。
研究团队来自理海大学微软研究院的华人团队，他们利用多个视觉agent在多个任务中表现接近Sora。
Mora支持生成分辨率为1024*576的12秒视频。该框架包括5个基本角色：Prompt选择和生成agent、文本到图像生成agent、图像到图像生成agent、图像到视频生成agent、视频到视频agent，每个agent负责特定的输入和输出。
团队设计了六个工作流，包括文本到视频生成、文本条件图像到视频生成、扩展生成的视频、视频到视频编辑、连接视频以及模拟数字世界。
Mora作为开源多agent框架具有一定的灵活性和效率，但仍有进步空间，如高质量视频数据集的需求、指令遵循能力的提升等。
研究团队由理海大学孙力超团队和微软研究院研究员组成，之前他们还用37页论文逆向工程解剖了Sora。
他们对模型背景、相关技术、应用、现存挑战以及文本到视频AI模型未来发展方向进行了全面分析。
感兴趣的读者可以查看相关链接获取更多信息。