全球最大开源视频模型,现在也Created in China了,阶跃出品

AIGC动态2天前发布 QbitAI
204 0 0
全球最大开源视频模型,现在也Created in China了,阶跃出品

 

文章摘要


【关 键 词】 多模态模型视频生成语音交互MIT协议开源生态

阶跃星辰与吉利汽车集团联合开源两款多模态大模型——Step-Video-T2V和Step-Audio,引发行业关注。Step-Video-T2V是目前全球参数量最大的开源视频生成模型,采用MIT协议,允许任意编辑与商业应用。该模型原生支持中英双语输入,可生成最长204帧、540P分辨率的视频,并通过高压缩比Video-VAE技术将训练和生成效率提升64倍。其引入的Video-DPO优化算法进一步强化了视频运动的流畅性与细节丰富度。为客观评估性能,阶跃同步开源评测数据集Step-Video-T2V-Eval,结果显示该模型在指令遵循、运动平滑性等11项指标上超越同类开源模型。

实测表明,Step-Video-T2V在复杂运动场景中表现突出。例如,生成羽毛球运动员动作时,人物姿态、场景元素与光线均与指令高度吻合;在人物特写镜头中,面部细节与表情自然度显著优于行业平均水平。模型对推拉摇移等运镜技术的精准控制能力,进一步验证了其技术优势。

另一款开源模型Step-Audio是行业首个产品级语音交互大模型,在逻辑推理、创作能力等维度表现卓越。其在LlaMA Question、HSK-6等5大测试集中均位列第一,支持多语种、多情绪语音生成,并能实现音色复刻与角色扮演。实测中,生成的语音在自然度和情感表达方面接近真人水平,适用于影视、游戏等多元化场景。

阶跃星辰通过高频迭代巩固多模态技术优势,近三个月连续发布11款模型,覆盖语言、视觉等全赛道。其API已被茶百道等企业规模化应用,日均处理百万级茶饮质检任务,节约75%人工核验时间。此次开源进一步降低技术门槛:Step-Audio提供端到端实时对话方案,开发者无需二次开发即可部署。

中国开源力量正通过技术突破重塑全球格局。继DeepSeek-R1引发行业震动后,阶跃的开源策略再次彰显技术自信。其模型在抱抱脸等平台获国际开发者积极评价,Eleuther AI社区成员主动参与测试并公开致谢。开源生态的“滚雪球效应”已初步显现——2024年下半年,阶跃多模态API调用量增长超45倍,形成技术、商业与社区协同发展的良性循环。

原文和模型


【原文链接】 阅读原文 [ 3595字 | 15分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...