国产黑马一年肝出万亿参数MoE！霸榜多模态，剑指AGI

AIGC动态1年前 (2024)发布 AIera

1,919 0 0

文章摘要

【关键词】 $ARTICLE_TAGS

新智元报道了一家名为“阶跃星辰”的初创公司在2024全球开发者先锋大会上发布了三个大型模型：Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型和Step-2万亿参数MoE语言大模型预览版。这家公司是Scaling Law的信仰者，认为模型规模的不断扩大会带来性能的阶跃式提升，目标是实现人工通用智能（AGI）。

Step-1和Step-1V模型在多个应用中展现了强大的能力，包括聊天助手“跃问”、图像理解工具“一图读懂”和互动故事平台“冒泡鸭”。这些应用能够完成信息查询、语言学习、创意写作、图文解读等任务，并在多模态内容理解方面表现出色。

Step-1模型在短短两个月内完成训练，超越了GPT-3.5在逻辑推理、中文知识、英文知识、数学和代码方面的性能。Step-1V则在中国权威的大型模型评估平台“司南”（OpenCompass）多模态模型评测榜单中位列第一，性能与GPT-4V相当。

阶跃星辰在实现万亿参数模型Step-2的过程中，面临了算力、系统、数据和算法四大挑战。公司通过自建机房和云上租用算力解决了算力问题，通过高效且稳定的系统设计提高了GPU使用效率，通过全球语料弥补了中文数据的不足，并在MoE稀疏架构训练方面取得了突破。

最后，文章指出，阶跃星辰认为多模态理解和生成的统一是通向AGI的必经之路。公司正按照既定路线推进大模型研发，从千亿参数模型到万亿参数模型，逐步迈向AGI的目标。