文章摘要
【关 键 词】 苹果、开源、大语言模型、移动设备、CoreNet
4月24日,苹果开源了针对手机等移动设备的大语言模型OpenELM,与微软的Phi-3 Mini类似,提供了指令微调和预训练两种模型,分别有2.7亿、4.5亿、11亿和30亿4种参数,支持生成文本、代码、翻译、总结摘要等功能。尽管参数规模较小,但苹果利用1.8万亿tokens的数据进行了预训练,展现出强大性能。值得一提的是,苹果还开源了训练OpenELM模型的深度神经网络库CoreNet,受到了Github用户的热烈关注。苹果的知名研究项目MobileOne、CVNets、MobileViT、FastVit等都是基于CoreNet完成的。苹果的开源举动在大模型领域中引起了关注,尤其是对于开发者和中小企业来说,提供了更多的福利和技术支持。
OpenELM采用了无编码器的transformer架构,通过层级缩放策略实现了更好的性能和准确率,同时采用了RMSNorm进行预归一化,使用旋转位置嵌入编码位置信息等技术创新。在训练流程中,苹果使用CoreNet作为训练框架,采用Adam优化算法进行了35万次迭代训练,使用了1.8万亿tokens的数据集进行预训练,同时实现了动态分词和数据过滤的方法,提高了实验流程的灵活性。总的来说,苹果的开源举措展现了其进军大模型领域的决心,也为开源领域带来了更多的活力。
原文和模型
【原文链接】 阅读原文 [ 1162字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...