超越 GPT-4o 和 Gemini-1.5,阶跃星辰拿下中国大模型第一
文章摘要
【关 键 词】 大模型、语言模型、人工智能、多模态、视觉搜索
在大模型技术领域,中国公司阶跃星辰的自研万亿参数语言大模型Step-2在国际权威LiveBench榜单中取得了显著成绩,位列国产基座大模型第一,全球第五,逼近OpenAI的o1-mini-2024-09-12,超越了多个国际主流模型。Step-2在IF Average(指令跟随)测评标准中以86.57分的成绩排名第一,展现了其在语言生成细节控制力方面的优势。这一成绩不仅证明了阶跃星辰的模型实力,也显示了其在中文大模型基准测评机构SuperCLUE上的领先地位。
LiveBench榜单由AI科学家杨立昆联合Abacus.AI、纽约大学等机构推出,包含6大类18项任务,以权威性、客观公正、全面评估而获得业界认可。该榜单每月发布新问题,设计问题时考虑最新数据集、论文、新闻文章和IMDb电影简介,以限制潜在的数据污染。
Step-2的成功背后,是阶跃星辰在模型理解和推理能力上的突破,以及其在数据量上的显著优势。Step-2的知识覆盖范围和深度都取得了突破,能够处理常见领域知识,也能深入理解和回答特定领域或边缘分布中的复杂问题。
除了Step-2,阶跃星辰还开发了多模态大模型Step-1.5V和图像生成大模型Step-1X,这些模型在视频理解、图像感知和图像生成方面展现出了强大的能力。Step-1.5V能够理解视频的整体氛围和人物情绪,而Step-1X则在图像生成方面展现出了深度语义对齐能力和细节生成能力。
阶跃星辰的产品开发也得益于其扎实的底层模型,其智能助手跃问加入了智能视觉搜索功能“拍照问”,能够解决难以用语音和文字准确描述的问题。随着基础模型的加持,阶跃星辰的产品能力有望进一步延展。创始人姜大昕期待AI的下一个里程碑,包括强化学习模型泛化能力的提升和视觉领域理解和生成的一体化,而阶跃星辰正朝着这些目标稳步前进。
原文和模型
【原文链接】 阅读原文 [ 2878字 | 12分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★