
文章摘要
【关 键 词】 视觉生成、开源模型、AI技术、阿里云、大模型
阿里云旗下的视觉生成基座模型万相2.1(Wan)近日宣布开源,采用宽松的Apache2.0协议,公开了14B和1.3B两个参数规格的全部推理代码和权重。这一开源动作使得全球开发者可以在Github、HuggingFace和魔搭社区下载体验。万相2.1支持文生视频和图生视频任务,在权威评测集VBench中的得分为86.22%,超越了国内外多个模型,稳居榜首。
万相2.1的14B模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现出色。1.3B版本在测试中不仅超过了更大尺寸的开源模型,甚至接近部分闭源模型,且能在消费级显卡上运行,仅需8.2GB显存即可生成高质量视频,适合二次模型开发和学术研究。
在算法设计上,万相基于DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE和可扩展的预训练策略。3D VAE通过特征缓存机制实现了无限长1080P视频的高效编解码,同时通过提前空间降采样压缩减少了29%的推理时内存占用。万相在14个主要维度和26个子维度测试中均达到业界领先表现,并在复杂运动和物理规律遵循上的表现上大幅提升,能够稳定展现复杂的人物肢体运动和精准还原复杂真实物理场景。
自2023年起,阿里云坚定了大模型开源路线,其千问(Qwen)衍生模型数量已超过10万个,成为全球最大的AI模型家族。万相的开源进一步实现了阿里云全模态、全尺寸大模型的开源。
万相2.1的实际生成效果展示了其在体育摄影风格、中国皮划艇运动员激流回旋比赛以及超速POV镜头等方面的强大能力,能够生成具有动感和紧张感的高清画质图片。
此外,QCon全球软件开发大会·北京站将于4月10-12日举行,届时将汇聚顶尖技术专家和创新实践者,共同探讨多行业AI落地应用,分享实践经验,并深度参与DeepSeek主题圆桌,洞见未来趋势。
原文和模型
【原文链接】 阅读原文 [ 1154字 | 5分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆