文章摘要
【关 键 词】 AI视频生成、通义万相、视觉大模型、免费使用、风格泛化
阿里巴巴集团近期推出了一款名为通义万相的AI视频生成工具,该工具在阿里云栖大会上由CTO周靖人宣布正式上线。通义万相AI视频功能专为中国市场设计,能够理解中文语境和中国风格,提供5秒长、每秒30帧、720P分辨率的视频生成服务。该工具的特点是能够生成与视频画面匹配的音效,采用了阿里自研的视觉大模型,并使用了Diffusion+Transformer的核心架构,这是一种结合了图像逐步降噪和文本上下文信息处理的技术。
通义万相的AI视频生成工具在手机端App上提供无限次数的免费使用,而PC端用户每天登录可以获得50个灵感值,用于生成10次视频。与国外同类产品相比,通义万相的优势在于其免费、无限次数使用,且不需要排队等待。
用户可以通过输入提示词来控制视频内容和变化过程,AI能够根据提示词生成具有想象力的视频,并自动配上背景音乐。工具在语义理解、画面动态、风格泛化能力以及中国元素的呈现方面表现出色,能够准确呈现复杂的提示词元素,并有机地结合不同元素。
在运动生成方面,通义万相展现了强大的能力,能够生成复杂和大幅度的运动,并真实地还原物理规律。此外,该工具还具备风格泛化能力,可以根据风格提示词生成响应的视频画面,提供影视级的画面质感和细节表现。
通义万相还具备音频生成功能,能够生成与视觉内容高度匹配的声音特效,实现音画同步,增强沉浸感。工具的灵感扩写能力也是其独特卖点之一,能够将简单的提示词扩写成更丰富的内容,提升生成效果。
在图生视频功能方面,通义万相能够根据用户提供的图片和创意描述生成视频,保持与原图的高度一致性,并展现出丰富的想象力。
技术层面,通义万相背后的全自研视觉生成大模型采用了中英文双语标注,强化了中文长文本理解能力,并对中文内容和元素提供了更好的原生支持。这种生成方式在计算效率上具有优势,减少了计算量并提高了生成速度,使得通义万相能够在短时间内生成高质量视频。
通义万相的应用场景广泛,可以为电商、广告创意、自媒体、影视/动画制作等领域的创作者提供灵感来源。阿里巴巴集团鼓励用户试用这款无限次数免费续的AI视频生成工具。
原文和模型
【原文链接】 阅读原文 [ 4181字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★