腾讯放大招，超Meta！史上参数最大，开源专家混合模型

2,233 0 0

文章摘要

【关键词】 腾讯Hunyuan、超大模型、Transformer、性能提升、长文本处理

腾讯公司在开源大模型领域推出了一款名为Hunyuan-Large的超大模型，该模型基于Transformer架构，拥有3890亿参数，其中激活参数为520亿，能够处理长达256K的上下文。Hunyuan-Large在性能上超越了Meta的LLama3.1-405B模型，并在激活参数数量减少的情况下实现了3.2%的性能提升，在数学、日常推理、文本生成等方面表现出色。

该模型采用了专家混合（MoE）结构，通过共享专家和专用专家两种模式，捕捉共同知识和动态学习特定领域的知识。Hunyuan-Large还开发了新的回收路由策略，优化训练效率和稳定性，并对KV缓存进行了创新，采用压缩技术降低内存占用，保持长序列处理能力。

在训练数据方面，Hunyuan-Large使用了7万亿token数据进行预训练，其中包括近1.5万亿的高质量和多样化的合成数据。合成数据的生成过程包括指令生成、指令演化、响应生成和响应过滤四个关键步骤。在专家特定的学习率缩放方面，Hunyuan-Large采用AdamW优化器，并根据批量大小调整学习率。

Hunyuan-Large的训练过程中，学习率调度分为三个阶段：初始的预热阶段、逐渐衰减阶段和退火阶段。在退火阶段后，Hunyuan-Large还进行了长文本预训练，增强其处理长文本的能力。腾讯将Hunyuan-Large与市面上其他超大开源模型进行了综合评测，结果显示Hunyuan-Large在多个测试中取得了超强的性能表现。