20亿参数模型要“干掉”Llama13B，面壁智能：老子打的就是精锐

AIGC动态1年前 (2024)发布 Si-Planet

2,734 0 0

作者信息

【原文作者】 硅星人Pro
【作者简介】 硅（Si）是创造未来的基础，欢迎来到这个星球。
【微信号】 Si-Planet

文章摘要

面壁智能公司发布了名为MiniCPM-2B的端侧“小参数”模型，旨在挑战现有的大语言模型。该模型具有较小的参数（70亿参数以下），使其能够在端侧本地运行并实现强大的功能。面壁智能的目标是利用20亿参数的模型击败LLaMA130亿参数的模型。

MiniCPM-2B在多个评测集上表现出色，与Mistral-7B相近，并在某些方面表现更优。此外，经过DPO处理后，该模型在MTBench评测集上的表现超过了众多代表性开源大模型。然而，面壁智能强调，由于部分学习数据可能会影响模型的表现，研究者应冷静看待评测结果。

面壁智能展示了MiniCPM-2B在代码生成、数学能力和多语言翻译等方面的能力。此外，该公司还将多模态版本的MiniCPM-V部署在手机上，首次实现了多模态大模型在手机上的部署。

在降低成本方面，面壁智能表示，一张1080/2080显卡即可高效参数微调，一张3090/4090显卡可全参数微调，一台机器可持续训练MiniCPM，二次开发成本较低。

面壁智能团队在发布会上表示，他们没有追赶谁，他们一直是领先的，尤其是在Scaling的方面。他们的研究方法也得到了Mistral的认可。在模型开发过程中，胡声鼎作为掌勺者，将模型训练科学化，变成某种实验科学。

面壁智能的一系列实验不仅研究了某个单点的最优解，还带来了一个新的可能：用实验的方式来真实解答一个问题——当你对一个固定大小的模型不停的训练下去，是不是其实可以比训练一个更大的模型效果更好？根据实验，面壁智能团队表示，2B的MiniCPM的持续训练后可以接近甚至超过9B的Chinchilla Optimal模型。

最后，面壁智能宣布对MiniCPM-2B系列模型进行全面的开源，包括MiniCPM-2B的指令微调与人类偏好对、基于MiniCPM-2B的多模态模型MiniCPM-V、MiniCPM-2B-SFT/DPO的Int4量化版以及基于MLC-LLM、LLMFarm开发的MiniCPM手机端程序。