大模型下半场,阶跃凭什么领跑多模态之战

AI-Agent2小时前发布 aitechtalk
62 0 0
大模型下半场,阶跃凭什么领跑多模态之战

 

文章摘要


【关 键 词】 大模型多模态AGI技术竞争智能终端

国内大模型竞争格局已形成三大阵营:资源派、技术派和国家队。资源派以大厂为代表,凭借雄厚资本在基础模型和落地应用上持续投入;技术派以DeepSeek为代表,专注于基座模型的突破,尤其在推理、数理或多模态等单点技术上表现突出;国家队则以阶跃星辰、智谱为代表,获得地方政府支持,致力于全面发展。尽管DeepSeek在技术上占据优势,但三股力量均在基础模型上发力,且各有侧重。多模态被视为AGI进程中的关键跃迁点,逐渐成为大模型下一阶段竞争的分水岭。

阶跃星辰作为多模态领域的佼佼者,成立两年内累计发布了22款自研基座模型,其中16款为多模态模型,占比超7成。外界曾质疑其频繁发布新模型是为了冲KPI,但深入分析其研发条线后发现,每个模态条线都经过数月甚至半年的积累才迭代出新成果。阶跃星辰从一开始就坚定走理解生成一体化的路线,预判了AI发展从多模态融合到多模态理解生成一体化的趋势,并提前布局。与其他公司不同,阶跃星辰重视模态的全覆盖,并坚持原生多模理念,这在业内并不多见。

多模态被认为是下一阶段基础模型竞争的技术决胜点。阶跃星辰创始人姜大昕指出,AGI的终局不仅包括语言符号,还包括视觉、空间、运动智能等,因此在多模态领域的任何短板都会延缓AGI的实现。自Sora实现视频生成效果突破后,视觉模型整体发展水平仍有限,尚未迎来下一个质变的奇点时刻。类比自然语言处理的进化过程,视觉领域尚未实现第一步——视觉理解生成一体化架构。多模态的复杂程度远高于语言,仅一张1024×1024的图片就达到100万维,且每个维度都是高维连续空间,难以实现良好的表征。

多模态大模型之所以关键,是因为人、机器与世界交互的形式是多模态的,Agent、具身智能等进一步的人工智能实现形式都需要以多模态能力为基础。阶跃星辰从一开始就确定了理解生成一体化的路线,采用原生多模的方式,在多模态融合技术上跑通了一条路。尽管视觉领域的GPT-4时刻尚未到来,但多模态能力已成为AI大模型下一阶段基础模型竞争的技术决胜点。阶跃星辰继续按照模拟世界——探索世界——归纳世界的节奏进行技术积累,提升基础大模型的“智能上限”和多模态能力。

阶跃星辰在行业内以低调和技术强悍著称,其技术发展路线始终踩在趋势前沿。在强化学习和多模态两个条线上,阶跃星辰早有布局。在推理模型方面,今年1月发布的Step R-Mini速度快、能力强,预计未来三个月将推出满血版推理模型Step R1;在多模态方面,坚持走理解和生成统一路线,搭建了覆盖图片、视频、语音的多模态模型矩阵。阶跃星辰的核心成员亲历了过去十年AI发展的历程,拥有深刻的实战经验和技术洞察。创始人姜大昕出身于微软亚洲研究院NLP组,首席科学家张祥雨对多模态模型的技术架构颇有思考,系统负责人朱亦博也是AI系统方向的顶级专家。

阶跃星辰在过去一年持续领跑多模态领域,收割国内外多个权威榜单的第一名。在“超级模型加超级应用”的双轮驱动策略中,阶跃基于自身的基础模型矩阵优势,差异化地寻找合适的应用形态。Agent所需要的多模态和慢思考能力是阶跃的长处所在,因此阶跃将智能终端Agent视为大模型技术落地的核心突破点。目前,阶跃星辰在汽车、手机、具身智能、IoT等关键应用场景上取得突破,与OPPO等手机厂商合作推出“一键问屏”、“一键全能搜”功能,与智元机器人、原力灵机达成战略合作,探索AI+具身机器人应用场景。

在商业化方面,阶跃星辰也是实践派。开发者反馈,阶跃多模态模型的用户付费率最高。头部茶饮品牌茶百道全国数千家门店已接入阶跃星辰Step-1V多模态理解大模型,完成智能巡检、AIGC营销等工作。多模态能力已从“可选项”到“必争项”,阶跃星辰凭借清晰的技术路线和坚定的持续投入,积累了多模态方面的差异化优势。多模态能力的提升也反哺了阶跃的基础大模型矩阵,在未来具身智能、世界模型等前沿方向上,阶跃星辰将“近水楼台先得月”,成为基座大模型竞争中的关键一极。

原文和模型


【原文链接】 阅读原文 [ 2877字 | 12分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...