端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k

作者信息


【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微 信 号】 almosthuman2014

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动
 

文章摘要


【关 键 词】 MetaMobileLLM模型参数性能

Meta 推出 MobileLLM 系列,一款适用于移动设备上的「小」模型。

Meta 最新论文介绍了 MobileLLM,一款专为移动设备设计的小型语言模型(LLM)。图灵奖得主 Yann LeCun 对此表示关注。田渊栋指出,MobileLLM 预训练模型(125M/350M)在聊天和 API 调用方面表现出色,性能达到最先进水平。研究中还探讨了跨 Transformer 层的权重共享,以节省参数并减少延迟。

改进十亿以下参数规模的 LLM 设计

研究者提出了 MobileLLM,一个强大的基线模型,通过采用 SwiGLU FFN、深而薄的架构、嵌入共享和分组查询注意力机制,显著提高了准确率。此外,通过及时逐块权重共享方法,MobileLLM-LS 的准确率进一步提高。

训练设置与层共享

研究者在 32 个 A100 GPU 上进行实验,探索了层深度与宽度对小型 transformer 模型的影响。实验结果表明,更深的层有利于模型性能,促使研究者采用层共享策略。

实验结果

MobileLLM 在零样本常识推理、问答、阅读理解、聊天和 API 调用任务上的性能均得到验证。特别是在 API 调用任务中,MobileLLM 与规模较大的 LLaMA-v2 7B 相比,实现了相媲美的分数。此外,模型在每个 token 进行最小 / 最大训练后量化 (PTQ) 实验,展示了在移动设备上的潜力。

更多技术细节请参阅原论文。

原文信息


【原文链接】 阅读原文
【原文字数】 2050
【阅读时长】 7分钟

© 版权声明

相关文章

暂无评论

暂无评论...