爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025

AIGC动态4天前发布 AIera
100 0 0
爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025

 

文章摘要


【关 键 词】 扩散模型自回归模型语言模型生成效率生成质量

块离散去噪扩散语言模型(BD3-LMs)结合了自回归模型扩散模型的优势,解决了现有扩散模型在生成长度受限、推理效率低和生成质量低等方面的问题。通过块状扩散实现任意长度生成,利用键值缓存提升效率,并通过优化噪声调度降低训练方差,BD3-LMs在扩散模型中达到了最高的预测准确性,同时在生成效率和质量上优于其他扩散模型。

扩散模型在生成图像和视频方面表现优异,但在生成离散数据(如文本或生物序列)时仍面临挑战。与自回归模型相比,扩散模型有望加速生成过程并提高输出的可控性。然而,离散扩散模型存在三个主要局限性:无法生成任意长度的输出序列、推理效率较低以及生成质量落后于自回归模型。为了克服这些局限性,研究人员提出了BD3-LMs,该模型在离散随机变量的块上定义了一个自回归概率分布,并通过离散去噪扩散模型指定当前块的条件概率。

BD3-LMs的核心创新在于将token分组成块,并在每个块内执行扩散操作。这种块扩散似然框架允许模型以自回归的方式处理块,同时在每个块内部使用扩散模型进行生成。通过优化似然下界,研究人员得到了一个合理的训练目标,并采用了一种简单的离散扩散参数化方法来建模每个块的似然。此外,研究人员提出了一种高效训练方法,只需进行两次正向传播即可完成计算,从而显著提高了训练效率。

在生成过程中,BD3-LMs一次生成一个块,并基于之前生成的块进行条件生成。生成一个块后,模型会像自回归模型一样将键和值缓存起来,以便在后续生成过程中复用。这种机制使得BD3-LMs能够生成任意长度的序列,包括超出其训练上下文长度的序列,并且在离散扩散模型中达到了新的最低困惑度。

BD3-LMs在生成质量和效率上的优势主要体现在其能够生成任意长度的文档,并且在生成步数较少的情况下,生成的样本具有更低的生成困惑度。与半自回归SSD-LM相比,BD3-LMs在生成效率和质量上均表现出色。此外,通过调整块的长度,BD3-LMs能够在扩散模型的似然性和自回归模型的似然性之间实现平衡,从而在生成任务中表现出更高的灵活性和准确性。

总的来说,BD3-LMs通过结合自回归模型和扩散模型的优点,成功解决了现有扩散模型在生成长度、推理效率和生成质量方面的局限性,为语言建模任务提供了一种高效且灵活的解决方案。

原文和模型


【原文链接】 阅读原文 [ 2602字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...