文章摘要
【关 键 词】 图像合成、LoRA Switch、LoRA Composite、多元素、高质量
该文章介绍了微软和伊利诺伊大学研究人员开发的Multi-LoRA Composition方法,旨在解决在图像合成中应用多个LoRA时出现的图像失真和难以控制细节的问题。该方法包括LoRA Switch和LoRA Composite两种技术,能够集成多个LoRA模型而无需微调,保持每个LoRA的权重完整性。研究人员使用GPT-4V对该方法进行了评测,结果显示LoRA Switch在图像合成质量方面表现卓越,而LoRA Composite在图像质量生成方面表现出色,效果随着LoRA数量增长而更加明显。
LoRA Switch的技术原理是在每个消噪步骤中选择性地激活一个LoRA模型,同时在多个LoRA模型之间轮流切换,确保每个元素都能得到充分的渲染。它由扩散模型、多个LoRA模型和切换功能组成,用户可以控制在消噪步骤中激活每个LoRA模型,以确保每个元素以精确和清晰的方式呈现。LoRA Switch可以避免直接融合LoRA权重矩阵时出现的不稳定问题,同时可以灵活调整LoRA之间的切换速率,适应不同的场景。
另一方面,LoRA Composite的技术原理是在每个消噪步骤计算每个LoRA的无条件和有条件分数估计,然后对这些分数进行平均,作为图像生成过程的指导。这种方法可以平衡不同LoRA的作用,实现更协调的成像合成。LoRA Composite综合了所有LoRA,并直接影响扩散过程,而不是操纵权重矩阵,可以集成任意数量的LoRA,突破了目前研究中通常只合并两个LoRA的技术限制。
研究人员还开发了面向LoRA组合图像生成的专业测试基准ComposLoRA,其中包含6大类、22个LoRA模型和480个组合样本,可以全面评价不同的LoRA组合。实验结果表明,新提出的两种组合方法相比目前主流的LoRA融合技术,可以实现更协调、逼真的多元素图像生成效果,尤其在使用数量较多的LoRA组合时,生成高质量的效果更加明显。
原文和模型
【原文链接】 阅读原文 [ 1060字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★☆