文章摘要
【关 键 词】 扩散模型、性能提升、搜索框架、推理计算、AI视频生成
来自纽约大学(NYU)、麻省理工学院(MIT)和谷歌的研究团队提出了一种创新方法,旨在通过测试时计算提升扩散模型(DM)的性能。该研究的核心在于设计一个通用搜索框架,通过引入验证器和专门的算法来寻找更优质的噪声候选,从而突破了传统扩散模型在推理阶段的性能瓶颈。
研究团队将推理时的Scaling重新定义为采样噪声的搜索问题,发现增加搜索计算可以提升生成性能。他们提出的搜索框架包括两个部分:验证器提供反馈和算法用于寻找更优的噪声候选。在ImageNet和DrawBench数据集上的实验表明,不同的验证器与算法组合展现出显著不同的Scaling特性,且没有单一的搜索配置能够普遍适用,每个任务都需要一个独特的搜索设置来实现最佳的Scaling能力。
此外,研究还发现,通过适度的推理时计算,可以部分抵消大量的训练成本,更有效地获得更高质量的样本。这一发现对于小型扩散模型尤其有益,因为它表明在有限的推理预算下,小型模型的性能可以优于大型模型。
该研究的贡献主要有三个:提出了一个用于扩散模型推理时Scaling的基础框架;确定了框架中的两个关键设计轴,即验证器和算法;以及对验证器与不同生成任务之间的对齐进行了广泛分析,揭示了不同验证器中嵌入的偏差,以及在每个不同的视觉生成任务中需要专门设计验证器的必要性。
共同一作Nanye Ma是纽约大学的博士生,导师是谢赛宁,同时也是谷歌的学生研究员。他的研究方向是AI视频生成,致力于改进潜表征和实现长时序一致性。另一位共同一作Shangyuan Tong是麻省理工学院CSAIL的博士生,师从Tommi S. Jaakkola,研究方向为深度学习和生成模型。
原文和模型
【原文链接】 阅读原文 [ 3759字 | 16分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★