20亿参数模型要“干掉”Llama13B,面壁智能:老子打的就是精锐

AIGC动态10个月前发布 Si-Planet
1,247 0 0

作者信息


【原文作者】 硅星人Pro
【作者简介】 硅(Si)是创造未来的基础,欢迎来到这个星球。
【微 信 号】 Si-Planet

20亿参数模型要“干掉”Llama13B,面壁智能:老子打的就是精锐
 

文章摘要


【关 键 词】 端侧模型参数优化性能评测多模态版本开源发布

面壁智能公司发布了名为MiniCPM-2B的端侧“小参数”模型,旨在挑战现有的大语言模型。该模型具有较小的参数(70亿参数以下),使其能够在端侧本地运行并实现强大的功能。面壁智能的目标是利用20亿参数的模型击败LLaMA130亿参数的模型。

MiniCPM-2B在多个评测集上表现出色,与Mistral-7B相近,并在某些方面表现更优。此外,经过DPO处理后,该模型在MTBench评测集上的表现超过了众多代表性开源大模型。然而,面壁智能强调,由于部分学习数据可能会影响模型的表现,研究者应冷静看待评测结果。

面壁智能展示了MiniCPM-2B在代码生成、数学能力和多语言翻译等方面的能力。此外,该公司还将多模态版本的MiniCPM-V部署在手机上,首次实现了多模态大模型在手机上的部署。

在降低成本方面,面壁智能表示,一张1080/2080显卡即可高效参数微调,一张3090/4090显卡可全参数微调,一台机器可持续训练MiniCPM,二次开发成本较低。

面壁智能团队在发布会上表示,他们没有追赶谁,他们一直是领先的,尤其是在Scaling的方面。他们的研究方法也得到了Mistral的认可。在模型开发过程中,胡声鼎作为掌勺者,将模型训练科学化,变成某种实验科学。

面壁智能的一系列实验不仅研究了某个单点的最优解,还带来了一个新的可能:用实验的方式来真实解答一个问题——当你对一个固定大小的模型不停的训练下去,是不是其实可以比训练一个更大的模型效果更好?根据实验,面壁智能团队表示,2B的MiniCPM的持续训练后可以接近甚至超过9B的Chinchilla Optimal模型。

最后,面壁智能宣布对MiniCPM-2B系列模型进行全面的开源,包括MiniCPM-2B的指令微调与人类偏好对、基于MiniCPM-2B的多模态模型MiniCPM-V、MiniCPM-2B-SFT/DPO的Int4量化版以及基于MLC-LLM、LLMFarm开发的MiniCPM手机端程序。

原文信息


【原文链接】 阅读原文
【原文字数】 2377
【阅读时长】 8分钟

© 版权声明

相关文章

暂无评论

暂无评论...