超越Sora！阿里万相大模型正式开源，消费级显卡也能跑！

1,930 0 0

文章摘要

阿里云旗下的视觉生成基座模型万相2.1（Wan）近日宣布开源，采用宽松的Apache2.0协议，公开了14B和1.3B两个参数规格的全部推理代码和权重。这一开源动作使得全球开发者可以在Github、HuggingFace和魔搭社区下载体验。万相2.1支持文生视频和图生视频任务，在权威评测集VBench中的得分为86.22%，超越了国内外多个模型，稳居榜首。

万相2.1的14B模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现出色。1.3B版本在测试中不仅超过了更大尺寸的开源模型，甚至接近部分闭源模型，且能在消费级显卡上运行，仅需8.2GB显存即可生成高质量视频，适合二次模型开发和学术研究。

在算法设计上，万相基于DiT架构和线性噪声轨迹Flow Matching范式，研发了高效的因果3D VAE和可扩展的预训练策略。3D VAE通过特征缓存机制实现了无限长1080P视频的高效编解码，同时通过提前空间降采样压缩减少了29%的推理时内存占用。万相在14个主要维度和26个子维度测试中均达到业界领先表现，并在复杂运动和物理规律遵循上的表现上大幅提升，能够稳定展现复杂的人物肢体运动和精准还原复杂真实物理场景。

自2023年起，阿里云坚定了大模型开源路线，其千问（Qwen）衍生模型数量已超过10万个，成为全球最大的AI模型家族。万相的开源进一步实现了阿里云全模态、全尺寸大模型的开源。

万相2.1的实际生成效果展示了其在体育摄影风格、中国皮划艇运动员激流回旋比赛以及超速POV镜头等方面的强大能力，能够生成具有动感和紧张感的高清画质图片。

此外，QCon全球软件开发大会·北京站将于4月10-12日举行，届时将汇聚顶尖技术专家和创新实践者，共同探讨多行业AI落地应用，分享实践经验，并深度参与DeepSeek主题圆桌，洞见未来趋势。