文章摘要
【关 键 词】 多智能体、视频编辑、文本生成、模拟数字世界、开源框架
这篇文章介绍了一种名为Mora的多智能体框架,是对Sora的复刻版。
Mora具有多种功能,包括文本转视频、视频编辑、视频拼接、模拟数字世界等。
研究团队来自理海大学微软研究院的华人团队,他们利用多个视觉agent在多个任务中表现接近Sora。
Mora支持生成分辨率为1024*576的12秒视频。该框架包括5个基本角色:Prompt选择和生成agent、文本到图像生成agent、图像到图像生成agent、图像到视频生成agent、视频到视频agent,每个agent负责特定的输入和输出。
团队设计了六个工作流,包括文本到视频生成、文本条件图像到视频生成、扩展生成的视频、视频到视频编辑、连接视频以及模拟数字世界。
Mora作为开源多agent框架具有一定的灵活性和效率,但仍有进步空间,如高质量视频数据集的需求、指令遵循能力的提升等。
研究团队由理海大学孙力超团队和微软研究院研究员组成,之前他们还用37页论文逆向工程解剖了Sora。
他们对模型背景、相关技术、应用、现存挑战以及文本到视频AI模型未来发展方向进行了全面分析。
感兴趣的读者可以查看相关链接获取更多信息。
原文和模型
【原文链接】 阅读原文 [ 734字 | 3分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...