对话面壁智能李大海:Scaling Law 之外,大模型的另一条关键路径
文章摘要
【关 键 词】 大模型、端侧模型、AGI、摩尔定律、智能服务
面壁智能的李大海在AGI Playground 2024上分享了公司在大模型和端侧模型领域的进展和愿景。面壁智能致力于开发高效的大模型,目标是打造最懂Agent的大模型公司。李大海认为,大模型作为知识压缩主要处理人的大脑系统一的工作,而Agent技术则形成系统二,与大语言模型结合,共同推动实现AGI目标。
面壁智能在端侧模型领域取得了显著成果,推出了小钢炮系列端侧模型,以1%的参数规模实现了与GPT-4V相当的多模态能力。李大海认为,端侧模型离用户更近,是落地更具象化、更现实的途径。端侧模型需要克服能耗限制,在足够小的参数下实现日常工作,挑战甚至比云端模型更大。
面壁智能提出了”大模型的摩尔定律“,即大模型的知识密度每8个月翻一番。李大海预测,到2026年底,面壁智能将实现GPT-4水平的端侧模型。这需要端侧芯片水平的不断提高,以及数据质量和算法的优化。
在实现端侧模型的过程中,面壁智能强调数据质量和算法的重要性,通过合成数据和动态学习率调度器等方法提高训练效率。李大海认为,模型能力就是产品能力,要将大模型放到离用户更近的地方,实现更懂用户的服务。
面壁智能正积极探索端侧模型的商业落地,通过2B2C的方式服务有生态的公司,同时寻找自己的场景。李大海表示,要离用户更近,需要分享更多上下文,实现更懂用户的服务。端侧模型要实现感知、决策、行为的”三位一体”,为用户提供真正有价值的服务。
面壁智能正与华为云等合作伙伴共同推动端云协同,充分利用芯片算力,降低能耗,推动大模型在端侧的应用。李大海期待与行业共同完成”面壁定律”,推动端侧模型的持续进化,为用户带来更智能、更贴近需求的服务。
原文和模型
【原文链接】 阅读原文 [ 6219字 | 25分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★