无需训练，这个新方法实现了生成图像尺寸、分辨率自由

AIGC动态2年前 (2024)发布 almosthuman2014

2,952 0 0

文章摘要

【关键词】 扩散模型、高分辨率、FouriScale、空洞卷积、低通滤波

近日，香港中文大学与商汤科技联合实验室的研究者们提出了一种名为FouriScale的方法，旨在改善预训练扩散模型在生成高分辨率图像时的性能。扩散模型因其卓越的性能已经成为生成式模型的热门选择，但在超出训练分辨率时，这些模型往往会产生模式重复和人工伪影问题。

FouriScale方法通过引入空洞卷积和低通滤波操作，替换预训练扩散模型中的原始卷积层，以实现不同分辨率下的结构和尺度一致性。这种方法还采用了“填充然后裁剪”的策略，使其能够灵活生成不同尺寸和长宽比的图像。FouriScale的引导策略进一步确保了生成图像的结构正确性和图像质量。

研究者们对FouriScale进行了定量和定性实验，结果表明该方法在生成高分辨率图像方面取得了显著提升。实验包括在不同预训练模型上生成多种更高分辨率的图像，并与其他无需训练的方法进行了对比。FouriScale在所有测试的预训练模型和不同分辨率下都获得了最优结果，并能够保持图像生成质量和结构的一致性。

FouriScale的提出，不仅解决了预训练扩散模型在生成高分辨率图像时面临的关键挑战，还增强了文本到图像生成的灵活性和质量，适应了不同长宽比的生成需求。这一成果有望推动扩散模型在高分辨率图像生成领域的应用。

此外，机器之心还宣布将在北京海淀举办AI技术论坛，聚焦于视频生成技术、多模态大模型等前沿领域的技术突破和应用实践，为企业和从业者提供了解和掌握最新技术进展的机会。论坛的早鸟票销售即将结束，吸引了业界人士的关注。