无需训练,这个新方法实现了生成图像尺寸、分辨率自由

无需训练,这个新方法实现了生成图像尺寸、分辨率自由

 

文章摘要


【关 键 词】 扩散模型高分辨率FouriScale空洞卷积低通滤波

近日,香港中文大学商汤科技联合实验室的研究者们提出了一种名为FouriScale的方法,旨在改善预训练扩散模型在生成高分辨率图像时的性能。扩散模型因其卓越的性能已经成为生成式模型的热门选择,但在超出训练分辨率时,这些模型往往会产生模式重复和人工伪影问题。

FouriScale方法通过引入空洞卷积低通滤波操作,替换预训练扩散模型中的原始卷积层,以实现不同分辨率下的结构和尺度一致性。这种方法还采用了“填充然后裁剪”的策略,使其能够灵活生成不同尺寸和长宽比的图像。FouriScale的引导策略进一步确保了生成图像的结构正确性和图像质量。

研究者们对FouriScale进行了定量和定性实验,结果表明该方法在生成高分辨率图像方面取得了显著提升。实验包括在不同预训练模型上生成多种更高分辨率的图像,并与其他无需训练的方法进行了对比。FouriScale在所有测试的预训练模型和不同分辨率下都获得了最优结果,并能够保持图像生成质量和结构的一致性。

FouriScale的提出,不仅解决了预训练扩散模型在生成高分辨率图像时面临的关键挑战,还增强了文本到图像生成的灵活性和质量,适应了不同长宽比的生成需求。这一成果有望推动扩散模型在高分辨率图像生成领域的应用。

此外,机器之心还宣布将在北京海淀举办AI技术论坛,聚焦于视频生成技术、多模态大模型等前沿领域的技术突破和应用实践,为企业和从业者提供了解和掌握最新技术进展的机会。论坛的早鸟票销售即将结束,吸引了业界人士的关注。

原文和模型


【原文链接】 阅读原文 [ 2128字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...