作者信息
【原文作者】 硅星人Pro
【作者简介】 硅(Si)是创造未来的基础,欢迎来到这个星球。
【微 信 号】 Si-Planet
文章摘要
【关 键 词】 端侧模型、参数优化、性能评测、多模态版本、开源发布
面壁智能公司发布了名为MiniCPM-2B的端侧“小参数”模型,旨在挑战现有的大语言模型。该模型具有较小的参数(70亿参数以下),使其能够在端侧本地运行并实现强大的功能。面壁智能的目标是利用20亿参数的模型击败LLaMA130亿参数的模型。
MiniCPM-2B在多个评测集上表现出色,与Mistral-7B相近,并在某些方面表现更优。此外,经过DPO处理后,该模型在MTBench评测集上的表现超过了众多代表性开源大模型。然而,面壁智能强调,由于部分学习数据可能会影响模型的表现,研究者应冷静看待评测结果。
面壁智能展示了MiniCPM-2B在代码生成、数学能力和多语言翻译等方面的能力。此外,该公司还将多模态版本的MiniCPM-V部署在手机上,首次实现了多模态大模型在手机上的部署。
在降低成本方面,面壁智能表示,一张1080/2080显卡即可高效参数微调,一张3090/4090显卡可全参数微调,一台机器可持续训练MiniCPM,二次开发成本较低。
面壁智能团队在发布会上表示,他们没有追赶谁,他们一直是领先的,尤其是在Scaling的方面。他们的研究方法也得到了Mistral的认可。在模型开发过程中,胡声鼎作为掌勺者,将模型训练科学化,变成某种实验科学。
面壁智能的一系列实验不仅研究了某个单点的最优解,还带来了一个新的可能:用实验的方式来真实解答一个问题——当你对一个固定大小的模型不停的训练下去,是不是其实可以比训练一个更大的模型效果更好?根据实验,面壁智能团队表示,2B的MiniCPM的持续训练后可以接近甚至超过9B的Chinchilla Optimal模型。
最后,面壁智能宣布对MiniCPM-2B系列模型进行全面的开源,包括MiniCPM-2B的指令微调与人类偏好对、基于MiniCPM-2B的多模态模型MiniCPM-V、MiniCPM-2B-SFT/DPO的Int4量化版以及基于MLC-LLM、LLMFarm开发的MiniCPM手机端程序。
原文信息
【原文链接】 阅读原文
【原文字数】 2377
【阅读时长】 8分钟