谢赛宁新作爆火，扩散模型新赛道诞生！测试时计算带飞，性能飙到天花板

1,495 0 0

文章摘要

来自纽约大学（NYU）、麻省理工学院（MIT）和谷歌的研究团队提出了一种创新方法，旨在通过测试时计算提升扩散模型（DM）的性能。该研究的核心在于设计一个通用搜索框架，通过引入验证器和专门的算法来寻找更优质的噪声候选，从而突破了传统扩散模型在推理阶段的性能瓶颈。

研究团队将推理时的Scaling重新定义为采样噪声的搜索问题，发现增加搜索计算可以提升生成性能。他们提出的搜索框架包括两个部分：验证器提供反馈和算法用于寻找更优的噪声候选。在ImageNet和DrawBench数据集上的实验表明，不同的验证器与算法组合展现出显著不同的Scaling特性，且没有单一的搜索配置能够普遍适用，每个任务都需要一个独特的搜索设置来实现最佳的Scaling能力。

此外，研究还发现，通过适度的推理时计算，可以部分抵消大量的训练成本，更有效地获得更高质量的样本。这一发现对于小型扩散模型尤其有益，因为它表明在有限的推理预算下，小型模型的性能可以优于大型模型。

该研究的贡献主要有三个：提出了一个用于扩散模型推理时Scaling的基础框架；确定了框架中的两个关键设计轴，即验证器和算法；以及对验证器与不同生成任务之间的对齐进行了广泛分析，揭示了不同验证器中嵌入的偏差，以及在每个不同的视觉生成任务中需要专门设计验证器的必要性。

共同一作Nanye Ma是纽约大学的博士生，导师是谢赛宁，同时也是谷歌的学生研究员。他的研究方向是AI视频生成，致力于改进潜表征和实现长时序一致性。另一位共同一作Shangyuan Tong是麻省理工学院CSAIL的博士生，师从Tommi S. Jaakkola，研究方向为深度学习和生成模型。