文章摘要
【关 键 词】 腾讯Hunyuan、超大模型、Transformer、性能提升、长文本处理
腾讯公司在开源大模型领域推出了一款名为Hunyuan-Large的超大模型,该模型基于Transformer架构,拥有3890亿参数,其中激活参数为520亿,能够处理长达256K的上下文。Hunyuan-Large在性能上超越了Meta的LLama3.1-405B模型,并在激活参数数量减少的情况下实现了3.2%的性能提升,在数学、日常推理、文本生成等方面表现出色。
该模型采用了专家混合(MoE)结构,通过共享专家和专用专家两种模式,捕捉共同知识和动态学习特定领域的知识。Hunyuan-Large还开发了新的回收路由策略,优化训练效率和稳定性,并对KV缓存进行了创新,采用压缩技术降低内存占用,保持长序列处理能力。
在训练数据方面,Hunyuan-Large使用了7万亿token数据进行预训练,其中包括近1.5万亿的高质量和多样化的合成数据。合成数据的生成过程包括指令生成、指令演化、响应生成和响应过滤四个关键步骤。在专家特定的学习率缩放方面,Hunyuan-Large采用AdamW优化器,并根据批量大小调整学习率。
Hunyuan-Large的训练过程中,学习率调度分为三个阶段:初始的预热阶段、逐渐衰减阶段和退火阶段。在退火阶段后,Hunyuan-Large还进行了长文本预训练,增强其处理长文本的能力。腾讯将Hunyuan-Large与市面上其他超大开源模型进行了综合评测,结果显示Hunyuan-Large在多个测试中取得了超强的性能表现。
原文和模型
【原文链接】 阅读原文 [ 1417字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆