全球最大开源视频模型，现在也Created in China了，阶跃出品

AIGC动态1年前 (2025)发布 QbitAI

2,487 0 0

文章摘要

阶跃星辰与吉利汽车集团联合开源两款多模态大模型——Step-Video-T2V和Step-Audio，引发行业关注。Step-Video-T2V是目前全球参数量最大的开源视频生成模型，采用MIT协议，允许任意编辑与商业应用。该模型原生支持中英双语输入，可生成最长204帧、540P分辨率的视频，并通过高压缩比Video-VAE技术将训练和生成效率提升64倍。其引入的Video-DPO优化算法进一步强化了视频运动的流畅性与细节丰富度。为客观评估性能，阶跃同步开源评测数据集Step-Video-T2V-Eval，结果显示该模型在指令遵循、运动平滑性等11项指标上超越同类开源模型。

实测表明，Step-Video-T2V在复杂运动场景中表现突出。例如，生成羽毛球运动员动作时，人物姿态、场景元素与光线均与指令高度吻合；在人物特写镜头中，面部细节与表情自然度显著优于行业平均水平。模型对推拉摇移等运镜技术的精准控制能力，进一步验证了其技术优势。

另一款开源模型Step-Audio是行业首个产品级语音交互大模型，在逻辑推理、创作能力等维度表现卓越。其在LlaMA Question、HSK-6等5大测试集中均位列第一，支持多语种、多情绪语音生成，并能实现音色复刻与角色扮演。实测中，生成的语音在自然度和情感表达方面接近真人水平，适用于影视、游戏等多元化场景。

阶跃星辰通过高频迭代巩固多模态技术优势，近三个月连续发布11款模型，覆盖语言、视觉等全赛道。其API已被茶百道等企业规模化应用，日均处理百万级茶饮质检任务，节约75%人工核验时间。此次开源进一步降低技术门槛：Step-Audio提供端到端实时对话方案，开发者无需二次开发即可部署。

中国开源力量正通过技术突破重塑全球格局。继DeepSeek-R1引发行业震动后，阶跃的开源策略再次彰显技术自信。其模型在抱抱脸等平台获国际开发者积极评价，Eleuther AI社区成员主动参与测试并公开致谢。开源生态的“滚雪球效应”已初步显现——2024年下半年，阶跃多模态API调用量增长超45倍，形成技术、商业与社区协同发展的良性循环。