能在手机上运行，仅仅0.5B大小的小语言模型MobiLlama

AIGC动态2年前 (2024)发布 admin

2,581 0 0

模型信息

【模型公司】 百川智能
【模型名称】 Baichuan2-53B
【摘要评分】 ★★★★★

文章摘要

本文介绍了MobiLlama模型，这是一个基于LLaMA-7B架构设计的轻量级语言模型，旨在在边缘设备上高效运行，无需将数据发送到远程服务器或云端处理。MobiLlama模型虽然体积小、对资源的需求低，但仍能提供高精度的语言理解和生成能力。

MobiLlama的主要能力包括高精度的语言理解与生成、轻量级设计、资源效率高、适应性强和全透明。此外，项目还提供了不同配置的模型版本，包括0.5B、0.8B、1B及其聊天版本的模型。

项目使用了预处理过的Amber数据集，总计约1.2万亿token，数据来源包括Arxiv、Book、C4、Refined-Web、StarCoder、StackExchange和Wikipedia等，总大小约为8TB。

MobiLlama模型在包括HellaSwag、TruthfulQA、MMLU、ARC_C、CrowsPairs、PIQA、RACE、SIQA、WinoGrande等测试中的性能表现，与其他模型进行了比较。在这些基准测试中，MobiLlama表现出色，尤其是在0.5B和0.8B配置下，展现了其高效处理复杂语言任务的能力。

与其他模型相比，如GPT-NEO、TinyStarCoder、Cerebras-GPT等，MobiLlama在相同或更小的参数规模下，能够实现更高的准确度和效率。这些结果凸显了MobiLlama在设计上的优势，即通过参数共享和模型优化，实现了在资源有限的设备上运行高性能模型的目标。