五倍推理加速,激发自回归潜能,苹果新工作让LLM预测未来

五倍推理加速,激发自回归潜能,苹果新工作让LLM预测未来

 

文章摘要


【关 键 词】 语言模型自回归训练推理加速多标记预测非自回归

近年来,语言模型的显著进展主要得益于大规模文本数据的可获得性以及自回归训练方法的有效性。自回归模型在训练阶段具有明显优势,但在推理阶段存在顺序执行的瓶颈,导致计算开销大。苹果的研究人员开发了一个框架,使预训练的自回归大型语言模型能够执行多token预测,在保持生成质量的同时,为代码和数学任务提供高达5.35倍的推理加速,为一般任务提供约2.5倍的加速。这项工作的核心在于探索语言模型能否在单个推理步骤中生成多个token,并验证了自回归模型实际上已隐含掌握未来token信息的能力。

研究者通过引入mask token和门控LoRA适配技术,实现了对现有自回归框架的最小改动。关键发现是:经过微调的模型能够将正确token提升至前10个logits中,表明模型具备组织未来token预测的潜力。采样模块的设计结合了模型的潜在表示与已生成token信息,确保多token生成的连贯性。实验采用Tulu3-8B模型,结果显示在编程和数学任务中加速效果尤为显著,这与这些领域未来token的高可预测性相关。

质量评估方面,门控LoRA机制成功保持了原始生成能力,NTP损失保持稳定,而标准LoRA训练则导致生成质量下降。消融实验验证了采样器MLP头、LCM损失和二次解码算法三个关键组件的贡献。不同配置的比较显示,完整配置能实现最优加速效果。LoRA秩的影响分析表明,适当增加秩能提升性能,但需权衡内存开销。

这项研究开辟了介于完全自回归与完全扩散生成之间的新路径,为平衡效率与质量提供了可行方案。未来方向包括在预训练阶段引入多token预测,以及探索基于扩散的生成方法。该框架的实用价值体现在能大幅降低AI运行成本,使轻量设备运行强大实时助手成为可能,对推理优化领域具有颠覆性意义。

原文和模型


【原文链接】 阅读原文 [ 3136字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...