对话阶跃星辰姜大昕：我们就是“多模态卷王”，这便是阶跃冲击AGI的方式

346 0 0

文章摘要

阶跃星辰是一家成立仅两年的大模型公司，已经发布了22款自研基座模型，涵盖文字、图像、视频、语音、音乐和推理等多个模态，其中大多数为多模态模型。创始人兼CEO姜大昕在分享中强调，阶跃星辰从一开始就坚持多模态的理念，认为多模态是实现通用人工智能（AGI）的必经之路。尽管外界可能认为阶跃的重点模糊，但姜大昕表示，这是公司从技术路线和行业现状出发主动选择的策略，与其他AI公司在预训练和应用之间摇摆不同，阶跃始终将重心放在基础模型的研发上。

姜大昕将阶跃的模型分为两类：语言与推理模型，以及多模态模型，统称为Step系列模型矩阵。他特别提到，推理模型已经从趋势变为范式，语言模型基本由推理模型主导。然而，多模态理解生成的一体化仍然是未解决的难题，尤其是在视觉领域。姜大昕指出，文本模型如ChatGPT已经实现理解生成一体化，但视觉领域尚未突破。目前，视觉领域的生成和理解仍然依赖不同的模型，如自回归模型和扩散模型，而这两种模型的结合尚未成功。

为了解决这一问题，阶跃内部采取了多条技术路线并行的策略，姜大昕认为，这种赛马机制有助于探索出最优解决方案。他强调，视觉模型的一体化目前尚未达到“Transformer时刻”，即尚未找到最适合的规模化架构。阶跃的目标是成为多模态领域的“卷王”，通过综合能力探索出下一代领先的一体化模型。

姜大昕还提到，阶跃的技术人才储备雄厚，团队内部已经将生成和理解两个部门整合为一个“生成理解”团队，以更好地推进多模态模型的研发。他透露，阶跃的模型发布频率较高，是因为公司在多个模态上同时推进，每条战线都经过了数月的积累。尽管外界可能认为阶跃不够聚焦，但姜大昕强调，多模态模型的研发需要非常综合的能力，而阶跃在各个模态上的强大能力正是其优势所在。

在谈到行业趋势时，姜大昕表示，技术发展非常迅速，阶跃不愿意在技术增长的过程中缺席，因此坚持基础模型的研发。他提到，阶跃的目标是在基础模型上实现代际的领先，探索下一代领先的一体化模型。姜大昕认为，视觉领域的突破将是一个重要的里程碑，而阶跃希望成为这一突破的推动者。

总的来说，阶跃星辰通过多模态模型的研发，致力于推动人工智能技术的进步，尤其是在视觉理解生成一体化这一关键领域。姜大昕的分享展示了阶跃在技术路线上的坚定信念和雄心，以及公司在多模态模型研发上的综合实力。