「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!

「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!

 

文章摘要


【关 键 词】 视频生成开源模型技术创新时间控制流畅度

Sand AI公司推出了全球首个自回归视频生成大模型MAGI-1,该模型通过自回归预测视频块序列来生成视频,具有高度的时间一致性和可扩展性。MAGI-1的生成效果自然流畅,支持无限续写,能够一镜到底生成连续的长视频场景,避免了尴尬的剪辑或拼接。此外,MAGI-1具备秒级时间轴控制功能,用户可以精准地雕琢每一秒的视频内容,生成的动作更加自然、有活力,场景切换也更加顺滑。

MAGI-1在技术上有多项创新,包括基于Transformer的VAE架构、自回归去噪算法、扩散模型架构和蒸馏算法。这些技术创新使得MAGI-1在开源模型中实现了最先进的性能,尤其是在指令遵循和运动质量方面表现出色,成为闭源商业模型的潜在有力竞争者。此外,MAGI-1通过分块提示进一步支持可控生成,实现了平滑的场景转换、长视距合成和细粒度文本驱动控制。

Sand AI公司由曹越和张拯联合创立,曹越是清华大学软件工程博士,曾在微软亚洲研究院工作,代表作包括Swin Transformer等。张拯也是Swin Transformer的作者之一,与曹越合作多年,共同获得ICCV2021最佳论文奖。公司成立一年多,已经融资近六千万美金,连续三轮融资由源码、今日、经纬等领投。

MAGI-1的发布在海外引起了广泛关注,开源大神Simo Ryu和OpenAI研究员Lucas beyer都对Sand AI团队表示了兴趣。Sand AI的下一步计划是实现视频的实时、快速生成,让AI模型从「创作工具」升级为实时体验。期待该公司在未来的进一步进展。

原文和模型


【原文链接】 阅读原文 [ 2733字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...