扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式
文章摘要
【关 键 词】 扩散模型、推理优化、生成任务、验证器设计、计算效率
纽约大学谢赛宁领导的团队近期研究了扩散模型在推理时的scaling效果,发现增加推理时间计算能显著提升扩散模型生成样本的质量。研究团队通过通用搜索框架系统性地探索了扩散模型的推理时scaling情况,并提出了一个基础框架,通过搜索去scaling NFE(函数评估次数)在各种生成任务和模型规模上带来实质性改进,超越了仅增加去噪步骤的方法。研究确定了两个关键设计轴:提供反馈的验证器和寻找更好噪声候选项的算法。他们研究了不同验证器-算法组合在各种任务中的表现,发现没有一种配置是普遍最优的,每个任务需要一个独特的搜索设置才能实现最佳的scaling性能。
研究还广泛分析了验证器与不同生成任务之间的匹配度,揭示了不同验证器中嵌入的偏见,以及在每个不同的视觉生成任务中需要专门设计验证器的必要性。此外,研究还探讨了搜索算法,包括随机搜索、零阶搜索和路径搜索,发现这些算法在一定程度上缓解了FID的多样性问题,同时保持了Inception Score的scaling。
在更大规模的文生图任务中,研究团队研究了搜索框架的推理时scaling能力,并研究了验证器与特定图像生成任务之间的对齐性能。他们采用了DrawBench和T2I-CompBench数据集,并扩展了监督式验证器的选择,包括Aesthetic Score Predictor、CLIPScore、ImageReward等。研究结果表明,可以根据不同的应用场景选择专门的搜索设置。
最后,研究还探讨了在推理计算上不同维度的投资效果,包括搜索迭代的次数、每次搜索迭代的计算量和最终生成的计算量。研究强调了在训练中投入的大量计算资源可以通过生成期间的一小部分计算来抵消,从而能更高效地获得更高质量的样本。
原文和模型
【原文链接】 阅读原文 [ 5657字 | 23分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆