实测万相2.1,全球首个中文文字生成开源模型,吊打Sora了?

AIGC动态13小时前发布 Si-Planet
174 0 0
实测万相2.1,全球首个中文文字生成开源模型,吊打Sora了?

 

文章摘要


【关 键 词】 视频生成开源模型技术评测工程优化语义控制

2月25日,阿里推出的万相2.1视频生成模型正式开源,包含14B和1.3B两个参数版本,支持文生视频、图生视频任务,并采用Apache2.0协议允许商业使用。在VBench评测中,该模型超越Sora、Luma等国内外开源模型,成为首个支持直接生成中文短文本的开源视频模型。开源代码已发布于Github、HuggingFace和魔搭社区,极大降低了开发者的使用门槛。

实测显示,14B参数的专业版与极速版均存在画面变形、物理细节理解不足的问题,但专业版在文本理解精确度和画面清晰度上更优。例如,生成“红裙女孩跳跃”场景时,极速版对台阶弹出旧物盒的细节还原较弱,而专业版虽提升了动作同步性,仍存在肢体扭曲现象。模型对中文短文字生成效果显著,如“命运”二字能呈现墨迹晕染与金色微光,但长文本会出现乱码。图生视频功能人物一致性较高,但对提示词理解不完整,如珍珠奶茶案例中缺失珍珠,石矶娘娘变身细节未完全实现。

技术层面,万相2.1采用DiT架构与Flow Matching框架,并创新提出Wan-VAE时空压缩技术。该技术通过降维存储视频关键信息,将内存占用降低29%,支持消费级显卡生成1080P视频。例如,将视频分辨率从1080P临时降至720P生成,再通过超分模型还原画质,解决了传统模型因数据量过大导致的内存瓶颈问题。此外,模型引入分层生成机制,通过记录前几帧关键信息实现长视频连续生成,理论上可支持无限长度视频编码。

运动控制方面,万相2.1允许通过文本、关键点或草图指定物体运动轨迹,例如“蝴蝶盘旋飞入”等指令可转化为数学模型,并融合物理引擎计算结果提升真实感。这种模块化设计既降低了创作门槛,也为后续迭代保留了技术扩展空间。尽管当前版本在复杂物理规律模拟上仍有不足,但开源策略或将加速社区优化进程。

从行业影响看,万相2.1的开源打破了视频生成领域付费商业模式的壁垒,其工程化创新为实际应用提供了可行性。通过解决内存占用、生成效率等核心难题,该模型为2025年视频生成赛道的技术竞争埋下了重要伏笔

原文和模型


【原文链接】 阅读原文 [ 2003字 | 9分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...