
文章摘要
【关 键 词】 扩散模型、自回归、语言模型、KV缓存、推理速度
扩散建模与自回归方法的融合在语言模型领域取得突破性进展。康奈尔大学、CMU等机构的研究团队提出新型混合框架Eso-LM,首次实现并行生成与KV缓存机制的兼容,推理速度较标准掩蔽扩散模型提升65倍,较半自回归基线快3-4倍。该模型通过创新的两阶段设计——扩散阶段并行去噪掩蔽token,顺序阶段自回归填充剩余部分——在保持生成质量的同时显著优化计算效率。
关键技术突破体现在注意力机制的灵活切换。研究者引入可调节的偏置矩阵,使单一Transformer能动态模拟因果与双向注意力行为。Eso-LM(A)和Eso-LM(B)两个变体分别通过稀疏化注意力与扩展KV缓存应用范围,实现计算量的大幅降低。其中Eso-LM(B)虽在困惑度指标上略有妥协,但通过完全缓存干净token的键值对,获得更显著的加速效果。
训练策略的创新性体现在混合数据输入设计。模型训练时交替使用自回归风格的完整序列预测和扩散风格的掩码去噪任务,这种双模式训练使模型能根据超参数α₀平滑调节生成风格。当α₀=1时完全采用扩散模式,α₀=0时则退化为纯自回归,其间连续过渡状态实现了质量与速度的精准平衡。
在LM1B和OpenWebText基准测试中,该模型刷新了扩散模型的困惑度记录。LM1B数据集上的困惑度从18.7降至16.3,相对提升13%;长文本建模方面,1024上下文窗口的困惑度优化幅度达11%。更值得注意的是其动态适应性:通过调节扩散步数(T=10至T=1000),模型可在不同计算预算下保持稳定的生成质量,相邻步长困惑度波动控制在0.8以内。
实际生成性能验证了方法的优越性。8192长度序列生成时,模型较传统方法呈现数量级的速度优势,且未出现低步数采样时的模式崩塌问题。评估显示其在生成困惑度与采样时间的帕累托前沿达到新高度:既能匹配扩散模型的高速采样性能,又可逼近自回归模型的生成质量,为语言建模范式演进提供了重要参考。
原文和模型
【原文链接】 阅读原文 [ 3507字 | 15分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★