大模型一定就比小模型好？谷歌的这项研究说不一定

AIGC动态1年前 (2024)发布 almosthuman2014

1,724 0 0

文章摘要

Google Research的一个团队近期对隐扩散模型（LDM）进行了大量实验研究，发现在预算有限的情况下，更大的模型并不总是更好。他们的研究成果发表在论文《Bigger is not Always Better: Scaling Properties of Latent Diffusion Models》中，该论文详细探讨了模型规模与性能、效率之间的关系。

隐扩散模型在多种任务上表现出色，包括图像合成与编辑、视频创建、音频生成和3D合成等。然而，它们的采样效率低下，尤其是在移动设备上，成为了实际应用的障碍。为了生成高质量的输出，LDM需要依赖多步采样，这导致了高昂的总成本。

Google团队训练了12个不同规模的LDM，参数量从39M到5B不等，以研究规模大小变化对性能和效率的影响。他们发现，在相同的采样预算下，较小的模型有时能够超越较大的模型。此外，他们还研究了预训练模型的大小如何影响在不同下游任务上的采样效率，例如真实世界超分辨率和主题驱动的文生图（Dreambooth）。

研究结果表明，预训练性能随着训练计算量的增加而提升，预训练性能与下游任务上的成功有很强的关联。较小模型的采样效率更高，而且这一趋势在不同的采样器和下游任务上都保持一致。即使使用扩散蒸馏技术，这一规模扩展趋势也不会改变。

该团队还开发了一系列强大的隐扩散模型，通过增大残差模块中过滤器的数量，实现了可预测的受控式规模扩展。他们的实验表明，随着模型规模的增大，视觉质量有所提升，但在采样步数较少时，较小模型的采样效率更高。

在分析CFG率（无分类器引导率）的影响时，他们发现CFG率的变化对视觉质量的影响大于对文本提示的语义准确度。他们还观察到，不同大小的模型在不同的CFG率下表现不一致，因此确定每个模型大小和采样步骤的最佳CFG率是重要的。

总体而言，这项研究提供了对隐扩散模型规模扩展性质的深入理解，并指出在预算有限的情况下，较小的模型可能是更合适的选择。这对于设计和部署机器学习模型，尤其是在资源受限的环境中，具有重要的实际意义。