「全球首个自回归视频生成大模型」，刚刚，Swin Transformer作者创业团队重磅开源！

AIGC动态5个月前发布 almosthuman2014

1,359 0 0

「全球首个自回归视频生成大模型」，刚刚，Swin Transformer作者创业团队重磅开源！

文章摘要

Sand AI公司推出了全球首个自回归视频生成大模型MAGI-1，该模型通过自回归预测视频块序列来生成视频，具有高度的时间一致性和可扩展性。MAGI-1的生成效果自然流畅，支持无限续写，能够一镜到底生成连续的长视频场景，避免了尴尬的剪辑或拼接。此外，MAGI-1具备秒级时间轴控制功能，用户可以精准地雕琢每一秒的视频内容，生成的动作更加自然、有活力，场景切换也更加顺滑。

MAGI-1在技术上有多项创新，包括基于Transformer的VAE架构、自回归去噪算法、扩散模型架构和蒸馏算法。这些技术创新使得MAGI-1在开源模型中实现了最先进的性能，尤其是在指令遵循和运动质量方面表现出色，成为闭源商业模型的潜在有力竞争者。此外，MAGI-1通过分块提示进一步支持可控生成，实现了平滑的场景转换、长视距合成和细粒度文本驱动控制。

Sand AI公司由曹越和张拯联合创立，曹越是清华大学软件工程博士，曾在微软亚洲研究院工作，代表作包括Swin Transformer等。张拯也是Swin Transformer的作者之一，与曹越合作多年，共同获得ICCV2021最佳论文奖。公司成立一年多，已经融资近六千万美金，连续三轮融资由源码、今日、经纬等领投。

MAGI-1的发布在海外引起了广泛关注，开源大神Simo Ryu和OpenAI研究员Lucas beyer都对Sand AI团队表示了兴趣。Sand AI的下一步计划是实现视频的实时、快速生成，让AI模型从「创作工具」升级为实时体验。期待该公司在未来的进一步进展。