逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散

文章摘要
【关 键 词】 扩散模型、自回归模型、文本生成、语言模型、块扩散
扩散模型在生成图像和视频方面取得了显著进展,并在处理离散数据(如文本或生物序列)方面展现出潜力。与自回归模型相比,扩散模型具有加速生成和提高输出可控性的优势。然而,离散扩散模型仍面临三大限制:无法生成任意长度的序列、缺乏高效的推理机制(如 KV 缓存重用)、以及质量指标(如困惑度)落后于自回归模型。这些限制阻碍了其在聊天系统等应用中的广泛使用。
为了解决这些问题,来自 Cornell Tech、斯坦福大学和 Cohere 的研究者提出了一种新型模型——块离散去噪扩散语言模型(BD3-LMs)。该模型在扩散模型和自回归模型之间进行插值,结合了两者的优势。具体而言,BD3-LMs 将序列划分为多个块,对每个块进行自回归建模,并在块内使用离散去噪扩散模型指定条件概率。这种方法不仅能够生成任意长度的序列,还通过优化训练目标和采样算法,显著提高了推理效率。
在开发 BD3-LMs 的过程中,研究者面临两大挑战:一是标准前向传递无法高效计算训练目标,二是扩散目标梯度的高方差导致训练效果不佳。为了解决这些问题,研究者推导出梯度方差的估计量,并提出了一种自定义噪声过程,以最小化梯度方差并缩小与自回归模型的困惑度差距。实验表明,这种优化方法显著提升了模型性能。
在多个语言建模基准上的评估结果显示,BD3-LMs 能够生成超出训练上下文长度的序列,并在离散扩散模型中实现了新的 SOTA 困惑度。与传统的半自回归方法相比,BD3-LMs 在生成步骤更少的情况下,生成的样本在困惑度方面表现更优。此外,研究者还展示了通过调整块长度,BD3-LMs 可以在扩散和自回归似然之间实现灵活插值。
论文第一作者 Marianne Arriola 指出,BD3-LMs 结合了自回归模型的似然估计优势和扩散模型的并行生成能力,在并行文本生成领域展现了巨大的潜力。这一研究为未来在更广泛的应用场景中使用扩散模型提供了新的思路和技术支持。
原文和模型
【原文链接】 阅读原文 [ 3070字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★