「全球最严榜单」,阶跃拿下中国TOP 1!杀入世界前五,超过GPT-4o紧跟o1-mini

AIGC动态4小时前发布 AIera
16 0 0
「全球最严榜单」,阶跃拿下中国TOP 1!杀入世界前五,超过GPT-4o紧跟o1-mini

 

文章摘要


【关 键 词】 人工智能大模型语言生成技术创新知识理解

阶跃星辰自研的万亿参数大模型Step-2在国际权威榜单LiveBench上取得全球第五、中国第一的成绩,成为唯一进入前十的中国语言大模型。该模型在IF Average(指令跟随)一项中超越所有上榜模型,甚至领先OpenAI o1-preview近10分,显示出在语言生成上对细节的强大控制力和理解人类指令的能力。Step-2在知识覆盖面和深度上取得突破,能处理常见领域知识并深层次理解特定领域复杂问题。在文字创作方面,Step-2展现出精准控制力,能生成高质量、有创意的文字内容,并根据用户指令进行精准调整和优化。

LiveBench由图灵奖得主Yann LeCun联合多家机构推出,被誉为世界上第一个不可玩弄的LLM基准测试。它从多个复杂维度评估模型,并每月更新基于最新信息源的测试问题,每个问题都配备可验证的客观参考答案,实现准确自动评分。LiveBench的测试结果显示,即使是最强大的模型,准确率也未能突破65%的天花板,显示了其权威性和挑战性。

Step-2的成功得益于阶跃星辰技术团队在算法和系统方面的大量关键创新。在模型扩大到万亿级别时,MoE成为必选项,阶跃星辰选择了完全自主研发,从头开始,采用部分专家共享参数、异构化专家等新颖设计,充分利用万亿参数。在训练效率方面,系统团队突破了6D并行、极致显存管理、完全自动化运维等关键技术,确保了高效、稳定的系统部署。Step-2的霸榜表现和多模型齐头并进,展现了阶跃星辰作为顶尖AI公司的实力和远见,是中国AI力量的最好注脚。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 2081字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...