「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

1,982 0 0

文章摘要

阶跃星辰自研的万亿参数大模型Step-2在国际权威榜单LiveBench上取得全球第五、中国第一的成绩，成为唯一进入前十的中国语言大模型。该模型在IF Average（指令跟随）一项中超越所有上榜模型，甚至领先OpenAI o1-preview近10分，显示出在语言生成上对细节的强大控制力和理解人类指令的能力。Step-2在知识覆盖面和深度上取得突破，能处理常见领域知识并深层次理解特定领域复杂问题。在文字创作方面，Step-2展现出精准控制力，能生成高质量、有创意的文字内容，并根据用户指令进行精准调整和优化。

LiveBench由图灵奖得主Yann LeCun联合多家机构推出，被誉为世界上第一个不可玩弄的LLM基准测试。它从多个复杂维度评估模型，并每月更新基于最新信息源的测试问题，每个问题都配备可验证的客观参考答案，实现准确自动评分。LiveBench的测试结果显示，即使是最强大的模型，准确率也未能突破65%的天花板，显示了其权威性和挑战性。

Step-2的成功得益于阶跃星辰技术团队在算法和系统方面的大量关键创新。在模型扩大到万亿级别时，MoE成为必选项，阶跃星辰选择了完全自主研发，从头开始，采用部分专家共享参数、异构化专家等新颖设计，充分利用万亿参数。在训练效率方面，系统团队突破了6D并行、极致显存管理、完全自动化运维等关键技术，确保了高效、稳定的系统部署。Step-2的霸榜表现和多模型齐头并进，展现了阶跃星辰作为顶尖AI公司的实力和远见，是中国AI力量的最好注脚。