Sora复刻版来了,微软参与,华人团队打造

AI-Agent8个月前发布 QbitAI
728 0 0
Sora复刻版来了,微软参与,华人团队打造

 

文章摘要


【关 键 词】 多智能体视频编辑文本生成模拟数字世界开源框架

这篇文章介绍了一种名为Mora多智能体框架,是对Sora的复刻版。
Mora具有多种功能,包括文本转视频、视频编辑、视频拼接、模拟数字世界等。
研究团队来自理海大学微软研究院的华人团队,他们利用多个视觉agent在多个任务中表现接近Sora
Mora支持生成分辨率为1024*576的12秒视频。该框架包括5个基本角色:Prompt选择和生成agent、文本到图像生成agent、图像到图像生成agent、图像到视频生成agent、视频到视频agent,每个agent负责特定的输入和输出。
团队设计了六个工作流,包括文本到视频生成、文本条件图像到视频生成、扩展生成的视频、视频到视频编辑、连接视频以及模拟数字世界。
Mora作为开源多agent框架具有一定的灵活性和效率,但仍有进步空间,如高质量视频数据集的需求、指令遵循能力的提升等。
研究团队由理海大学孙力超团队和微软研究院研究员组成,之前他们还用37页论文逆向工程解剖了Sora
他们对模型背景、相关技术、应用、现存挑战以及文本到视频AI模型未来发展方向进行了全面分析。
感兴趣的读者可以查看相关链接获取更多信息。

原文和模型


【原文链接】 阅读原文 [ 734字 | 3分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...