比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架

文章摘要
【关 键 词】 语言模型、预训练框架、概念混合、采样效率、模型可操纵性
近年来,大型语言模型通过”下一个token预测”范式取得显著进展,但其对表层token的依赖限制了高级推理和长期任务处理能力。针对这一问题,Meta等机构的研究者提出连续概念混合(CoCoMix)框架,将离散token预测与连续语义概念相结合,旨在提升模型效率和性能。
CoCoMix的核心设计包含概念选择与混合机制。通过预训练的稀疏自编码器提取语义概念,利用归因分数筛选关键概念,再以交叉熵损失训练模型预测这些概念。预测结果经压缩后与token隐藏状态交错混合,形成新的输入表示。该方法使模型能同时学习概念编码与混合策略,在1.38B参数规模的模型中,CoCoMix仅需减少21.5%训练token即可达到传统方法的性能水平。
实验验证显示,CoCoMix在语言建模基准测试中展现出多重优势。与标准下一个token预测相比,其采样效率提升显著,尤其在十亿级参数模型中性能增益随训练步骤增加持续扩大。在弱监督场景下,从小模型提取的概念可有效指导大模型训练,386M参数模型平均复杂度降低2.8,优于知识蒸馏方法。分布转移测试中,CoCoMix通过选择性概念利用实现持续性能提升,而传统方法在训练中期即出现性能下降。
模型可解释性方面,CoCoMix通过概念预测机制提供分析接口。实验表明,放大特定概念向量(如”网站地址”)能定向控制输出内容,证实了语义概念与模型行为的强关联性。组件有效性分析揭示,归因分数筛选、概念预测损失函数和概念-状态交错混合三个设计要素共同支撑性能提升,其中概念混合策略相比简单状态叠加效果提升达15%。
该方法与现有技术形成显著区别:不同于单纯添加停顿token或知识蒸馏,CoCoMix通过端到端框架实现概念学习与应用的协同优化。研究团队验证了该方法在不同规模模型(从69M到1.38B参数)和训练语料下的鲁棒性,特别是在计算资源受限场景中展现出应用潜力。这些突破为突破传统token预测范式的局限性提供了新思路,可能推动语言模型向更高效、可解释的方向演进。
原文和模型
【原文链接】 阅读原文 [ 2193字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★