Ai2开源OLMo 2:数据集、训练方法、权重大放送

AIGC动态1个月前发布 AIGCOPEN
243 0 0
Ai2开源OLMo 2:数据集、训练方法、权重大放送

 

文章摘要


【关 键 词】 AI模型开源参数优化训练方法指令跟随

AI研究机构Ai2最近开源了一款名为OLMo 2的大模型,这是一款全面开放的人工智能模型,不仅提供模型权重,还包括工具、数据集和训练配方等开发所需内容。OLMo 2包含7B和13B两个参数版本,均展现出卓越能力。7B版本在英语学术基准测试中超越了Meta的Llama 3.1 8B,而13B版本即使在较少计算资源的情况下,也超过了Qwen 2.5 7B。OLMo 2的开源地址为:https://huggingface.co/allenai/OLMo-2-1124-7B。

OLMo 2的发布基于Ai2团队今年早些时候发布的首个OLMo模型,采用了创新的两阶段训练方法。首先在包含3.9万亿token的大型数据集上进行训练,然后使用高质量数据进行优化。团队特别关注训练稳定性,并进行了关键改进,以防止长时间训练过程中的性能下降。

此次发布还建立在Ai2与开源训练系统Tülu 3合作的基础上。Tülu 3是一个复杂的后训练过程,使OLMo 2具备了与世界顶级模型相当的指令跟随任务能力。完整的发布内容还包括评估框架和中间检查点,这些工具可以帮助开发人员深入理解并进一步提升OLMo 2的能力。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 446字 | 2分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...