被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

AIGC动态1年前 (2024)发布 aitechtalk

2,167 0 0

文章摘要

面壁智能团队在大模型领域的探索与实践

面壁智能团队，由曾国洋担任CTO，自2020年GPT-3发布后开始训练大模型，逐渐认识到提升模型效果是大模型训练的根本目标，但并不一定要通过扩大参数量规模和燃烧高昂的算力成本来实现。面壁智能团队追求的是让每一个参数发挥最大的作用，在同等参数量上实现更好的性能，这是解决大模型“高效”训练的核心。2024年2月，面壁发布了MiniCPM 2B，在更小参数量的基础上实现可以媲美Mistral-7B的性能，初步验证了其“低参数、高性能”的方法论。面壁的千亿大模型训练成本也由此大幅下降，这也是面壁自天使轮融资后仍能扩大团队规模并不断迭代千亿模型的根本原因。

面壁智能团队的训练小模型，并不单单是为了“训练小模型”，而是为了训练能实现AGI（人工通用智能）的通用基座大模型。基于Scaling Law的科学方法论，通过小模型验证大模型的训练投入产出比，是面壁在2023年低调研究一年所探索出的一条独特路线。面壁智能团队的核心创始成员认为，如果大模型作为实现AGI的关键路径，但成本却无比高昂，那么即使实现AGI，也没有意义。因此，面壁智能团队追求的是在同样的时间、同等参数量的条件下，实现更优的Scaling Law。

面壁智能团队在2024年1月的ICLR会议上，发表了题为“Predicting Emergent Abilities with Infinite Resolution Evaluation”的论文，引起了海内外多个关注“Scaling Law”的团队讨论，包括OpenAI。这篇论文是除了OpenAI第一个实现了用Scaling Prediction在下游任务上做预测的工作。面壁团队关注的是GPT-4的两个创新点：一是GPT-4的输入文本达到了32k的长度，二是Scaling Law与Scaling Prediction。面壁团队认为，如果Scaling Prediction能够在一个大模型还未训练出来时，就能预测它的性能大约在什么水平，那么研究人员就可以先通过小模型做实验、调参数，如果失败就不断尝试、如果成功就按照相同的数据配比、参数调整等方法训练一个大模型，那么训练时间与训练成本都会大幅缩减。这很符合面壁团队追求“高效”的第一性原理。

面壁智能团队在数据工程、算力端和模型超参选择、架构选择上都有所发力，全面系统地推进大模型上下游工程。面壁所发表的Ultra系列对齐数据集在国际上广受欢迎，全球有接近200个大模型都在用面壁的数据集做对齐。在算力端，面壁团队也开始将大模型与国产芯片做适配，自研搭建了可以在大部分主流国产芯片上运行大模型的框架。曾国洋透露，面壁大模型的高效训练还体现在模型超参选择、架构选择上，这些都已经在MiniCPM的结果上得到了很好的验证。

面壁智能团队的Scaling Law路线只能预测一部分以生成为主、推理需求没那么高的任务；由于下游任务的一些性能有时是凭空“涌现”的，波动大、不如Loss稳定，所以面壁的预测准确率也只有95%左右。现在，面壁的团队还在不断改进。面壁团队核心成员表示，在未来他们有信心训练出一个性能对标GPT-4甚至更强的模型，找到更陡峭的模型能力成长线，“而这才是AGI的可持续发展方案”。

面壁智能团队在2023年8月发布了稠密型千亿大模型，但无论是资本端还是用户端，面壁的存在感并不高，甚至被外界认为“融资与发展有点慢”。但据AI科技评论与面壁团队核心成员的交流，面壁内部认为，他们在过去的2023年不仅不慢，而且已经非常“快”。在过去的一年，他们解决了很多问题，如：成功探索Scaling Law，把整个沙盒实验机制给建立起来；从0到1训练了多模态大模型；文本能力达到了GPT-3.5的水平；把模型训练迭代的流程跑通，找到了正确的方向。

面壁智能团队的训练小模型，并不单单是为了“训练小模型”，而是为了训练能实现AGI的通用基座大模型。面壁智能团队的核心创始成员认为，如果大模型作为实现AGI的关键路径，但成本却无比高昂，那么即使实现AGI，也没有意义。因此，面壁智能团队追求的是在同样的时间、同等参数量的条件下，实现更优的Scaling Law。这表明面壁智能团队在大模型技术上跑得靠前，每一步都走得很稳，长跑的优势才初步显现。