腾讯放大招,超Meta!史上参数最大,开源专家混合模型

AIGC动态1个月前发布 AIGCOPEN
305 0 0
腾讯放大招,超Meta!史上参数最大,开源专家混合模型

 

文章摘要


【关 键 词】 腾讯Hunyuan超大模型Transformer性能提升长文本处理

腾讯公司在开源大模型领域推出了一款名为Hunyuan-Large的超大模型,该模型基于Transformer架构,拥有3890亿参数,其中激活参数为520亿,能够处理长达256K的上下文。Hunyuan-Large在性能上超越了Meta的LLama3.1-405B模型,并在激活参数数量减少的情况下实现了3.2%的性能提升,在数学、日常推理、文本生成等方面表现出色。

该模型采用了专家混合(MoE)结构,通过共享专家和专用专家两种模式,捕捉共同知识和动态学习特定领域的知识。Hunyuan-Large还开发了新的回收路由策略,优化训练效率和稳定性,并对KV缓存进行了创新,采用压缩技术降低内存占用,保持长序列处理能力。

在训练数据方面,Hunyuan-Large使用了7万亿token数据进行预训练,其中包括近1.5万亿的高质量和多样化的合成数据。合成数据的生成过程包括指令生成、指令演化、响应生成和响应过滤四个关键步骤。在专家特定的学习率缩放方面,Hunyuan-Large采用AdamW优化器,并根据批量大小调整学习率。

Hunyuan-Large的训练过程中,学习率调度分为三个阶段:初始的预热阶段、逐渐衰减阶段和退火阶段。在退火阶段后,Hunyuan-Large还进行了长文本预训练,增强其处理长文本的能力。腾讯将Hunyuan-Large与市面上其他超大开源模型进行了综合评测,结果显示Hunyuan-Large在多个测试中取得了超强的性能表现。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1417字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...