比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

AIGC动态6个月前发布 almosthuman2014

1,411 0 0

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

文章摘要

近年来，大型语言模型通过”下一个token预测”范式取得显著进展，但其对表层token的依赖限制了高级推理和长期任务处理能力。针对这一问题，Meta等机构的研究者提出连续概念混合（CoCoMix）框架，将离散token预测与连续语义概念相结合，旨在提升模型效率和性能。

CoCoMix的核心设计包含概念选择与混合机制。通过预训练的稀疏自编码器提取语义概念，利用归因分数筛选关键概念，再以交叉熵损失训练模型预测这些概念。预测结果经压缩后与token隐藏状态交错混合，形成新的输入表示。该方法使模型能同时学习概念编码与混合策略，在1.38B参数规模的模型中，CoCoMix仅需减少21.5%训练token即可达到传统方法的性能水平。

实验验证显示，CoCoMix在语言建模基准测试中展现出多重优势。与标准下一个token预测相比，其采样效率提升显著，尤其在十亿级参数模型中性能增益随训练步骤增加持续扩大。在弱监督场景下，从小模型提取的概念可有效指导大模型训练，386M参数模型平均复杂度降低2.8，优于知识蒸馏方法。分布转移测试中，CoCoMix通过选择性概念利用实现持续性能提升，而传统方法在训练中期即出现性能下降。

模型可解释性方面，CoCoMix通过概念预测机制提供分析接口。实验表明，放大特定概念向量（如”网站地址”）能定向控制输出内容，证实了语义概念与模型行为的强关联性。组件有效性分析揭示，归因分数筛选、概念预测损失函数和概念-状态交错混合三个设计要素共同支撑性能提升，其中概念混合策略相比简单状态叠加效果提升达15%。

该方法与现有技术形成显著区别：不同于单纯添加停顿token或知识蒸馏，CoCoMix通过端到端框架实现概念学习与应用的协同优化。研究团队验证了该方法在不同规模模型（从69M到1.38B参数）和训练语料下的鲁棒性，特别是在计算资源受限场景中展现出应用潜力。这些突破为突破传统token预测范式的局限性提供了新思路，可能推动语言模型向更高效、可解释的方向演进。