
文章摘要
【关 键 词】 多模态模型、开源技术、视频生成、语音交互、AGI研究
阶跃星辰与吉利汽车集团联合宣布,将Step系列多模态大模型向全球开发者开源。此次开源包含参数量达300亿的Step-Video-T2V视频生成模型,以及产品级开源语音交互模型Step-Audio。两款模型即日起可在跃问APP体验,标志着阶跃星辰首次公开其基座模型技术。
Step-Video-T2V作为当前全球最大规模的开源视频生成模型,支持直接生成204帧、540P分辨率的高质量视频,在复杂运动、人物表现、多语言输入等场景中展现突出能力。该模型配套发布了评测数据集Step-Video-T2V-Eval,包含128条中文真实用户问题,覆盖11类内容场景。评测结果显示,其在指令遵循、运动平滑性等关键指标上显著优于现有开源模型,尤其在物理合理性与视觉美感方面表现卓越。
语音交互模型Step-Audio则定位为行业首款产品级开源方案,支持情绪、方言、歌声等多样化语音生成,并具备音色复刻与角色扮演功能。在LlaMA Question等5大测试集中,其性能均超越同类开源模型,HSK-6中文评测表现尤为突出。配套的StepEval-Audio-360评测体系从9个维度构建多维度评估标准,人工横评证实该模型能力均衡且全面领先。
吉利汽车CEO淦家阅强调,星睿AI大模型已与阶跃技术深度融合,将推动智能座舱与自动驾驶体验升级。阶跃星辰创始人姜大昕博士指出,开源旨在促进AGI技术发展,多模态模型被视为实现通用人工智能的关键路径,期待通过社区协作突破技术边界。目前,两家企业正通过跃问平台提供技术体验入口。
行业活动方面,2月11日至27日将举办DeepSeek系列技术直播,解析大模型领域最新进展。同时,2025年QCon全球软件开发大会拟于4月聚焦“智能融合”主题,探讨AI大模型对软件行业的变革影响。
原文和模型
【原文链接】 阅读原文 [ 1553字 | 7分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-r1
【摘要评分】 ★★★☆☆