苹果开源OpenELM,大模型开源领域再迎一巨头!

AIGC动态7个月前发布 AIGCOPEN
831 0 0
苹果开源OpenELM,大模型开源领域再迎一巨头!

 

文章摘要


【关 键 词】 苹果开源大语言模型移动设备CoreNet

4月24日,苹果开源了针对手机等移动设备大语言模型OpenELM,与微软的Phi-3 Mini类似,提供了指令微调和预训练两种模型,分别有2.7亿、4.5亿、11亿和30亿4种参数,支持生成文本、代码、翻译、总结摘要等功能。尽管参数规模较小,但苹果利用1.8万亿tokens的数据进行了预训练,展现出强大性能。值得一提的是,苹果还开源了训练OpenELM模型的深度神经网络库CoreNet,受到了Github用户的热烈关注。苹果的知名研究项目MobileOne、CVNets、MobileViT、FastVit等都是基于CoreNet完成的。苹果的开源举动在大模型领域中引起了关注,尤其是对于开发者和中小企业来说,提供了更多的福利和技术支持。
OpenELM采用了无编码器的transformer架构,通过层级缩放策略实现了更好的性能和准确率,同时采用了RMSNorm进行预归一化,使用旋转位置嵌入编码位置信息等技术创新。在训练流程中,苹果使用CoreNet作为训练框架,采用Adam优化算法进行了35万次迭代训练,使用了1.8万亿tokens的数据集进行预训练,同时实现了动态分词和数据过滤的方法,提高了实验流程的灵活性。总的来说,苹果的开源举措展现了其进军大模型领域的决心,也为开源领域带来了更多的活力。

原文和模型


【原文链接】 阅读原文 [ 1162字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...