最大参数 300 亿！阶跃星辰与吉利联合开源两款多模态大模型

1,562 0 0

文章摘要

阶跃星辰与吉利汽车集团联合宣布，将Step系列多模态大模型向全球开发者开源。此次开源包含参数量达300亿的Step-Video-T2V视频生成模型，以及产品级开源语音交互模型Step-Audio。两款模型即日起可在跃问APP体验，标志着阶跃星辰首次公开其基座模型技术。

Step-Video-T2V作为当前全球最大规模的开源视频生成模型，支持直接生成204帧、540P分辨率的高质量视频，在复杂运动、人物表现、多语言输入等场景中展现突出能力。该模型配套发布了评测数据集Step-Video-T2V-Eval，包含128条中文真实用户问题，覆盖11类内容场景。评测结果显示，其在指令遵循、运动平滑性等关键指标上显著优于现有开源模型，尤其在物理合理性与视觉美感方面表现卓越。

语音交互模型Step-Audio则定位为行业首款产品级开源方案，支持情绪、方言、歌声等多样化语音生成，并具备音色复刻与角色扮演功能。在LlaMA Question等5大测试集中，其性能均超越同类开源模型，HSK-6中文评测表现尤为突出。配套的StepEval-Audio-360评测体系从9个维度构建多维度评估标准，人工横评证实该模型能力均衡且全面领先。

吉利汽车CEO淦家阅强调，星睿AI大模型已与阶跃技术深度融合，将推动智能座舱与自动驾驶体验升级。阶跃星辰创始人姜大昕博士指出，开源旨在促进AGI技术发展，多模态模型被视为实现通用人工智能的关键路径，期待通过社区协作突破技术边界。目前，两家企业正通过跃问平台提供技术体验入口。

行业活动方面，2月11日至27日将举办DeepSeek系列技术直播，解析大模型领域最新进展。同时，2025年QCon全球软件开发大会拟于4月聚焦“智能融合”主题，探讨AI大模型对软件行业的变革影响。