阿里开源版Sora上线即屠榜,4070就能跑,免费商用

AIGC动态15小时前发布 QbitAI
39 0 0
阿里开源版Sora上线即屠榜,4070就能跑,免费商用

 

文章摘要


【关 键 词】 视频生成模型开源参数优化技术创新分布式策略

阿里巴巴近期开源了一款名为Wan 2.1的视频生成模型,拥有14B参数量,凭借其卓越的性能在VBench上超越了Sora和Gen-3等竞争对手。该模型在处理复杂运动细节方面表现出色,例如能够同步5个人一起跳hip-hop的动作。此外,Wan 2.1还成功解决了静态图像生成中的文字问题,实现了视频中文字的生成,并且能够根据文字位置的材质进行合理变化和随载体运动。

尽管14B参数量的模型在个人消费级显卡上部署较为困难,但阿里巴巴还提供了一个1.3B参数量的版本,支持480P分辨率,能够在4090显卡上占用8GB多的显存,并在4分21秒内完成消耗。这意味着使用12GB显存的4070显卡也能带动该模型。

Wan 2.1的模型均采用Apache 2.0许可,允许免费商用。官方还计划将AI创作者喜爱的ComfyUI集成到模型中。用户可以通过通义万相平台体验Wan 2.1,其中1.3B和14B版本分别被称为极速版和专业版,每次使用消耗5个或3个“灵感值”。由于模型热度高,等待时间可能较长。

Wan 2.1的技术亮点之一是支持视频中生成文字,且文字能够根据所处位置的材质进行合理变化,并随载体运动。模型在动作细节和物理规律方面也表现出色,如弓弦的抖动和水面场景的处理。

Wan 2.1采用了DiT(Diffusion Transformer)架构,利用T5编码器对输入的多语言文本进行编码,并在每个Transformer块内加入交叉注意力机制。模型还采用了3D变分自动编码器,专为视频生成设计,实现了特征缓存机制,并结合多种策略改善时空压缩。Wan将视频分成1+T/4个块处理,每个编码和解码操作仅处理与单个潜在表示相对应的视频块,有效防止GPU内存溢出。

为了提高模型的扩展性和训练效率,Wan对编码器采用了FSDP模型切分与上下文并行性(CP)相结合的分布式策略;对于DiT模块则采用了DP、FSDP、RingAttention、Ulysses混合的并行策略。在推理阶段,通过CP进行分布式加速,以减少生成单个视频的延迟。

阿里巴巴计划发布更详细的报告,对技术细节感兴趣的读者可以持续关注。

原文和模型


【原文链接】 阅读原文 [ 1445字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...