微软开源创新LoRA组合方法，增强文生图复杂细节控制

AIGC动态1年前 (2024)发布 AIGCOPEN

1,764 0 0

微软开源创新LoRA组合方法，增强文生图复杂细节控制

文章摘要

【关键词】 图像合成、LoRA Switch、LoRA Composite、多元素、高质量

该文章介绍了微软和伊利诺伊大学研究人员开发的Multi-LoRA Composition方法，旨在解决在图像合成中应用多个LoRA时出现的图像失真和难以控制细节的问题。该方法包括LoRA Switch和LoRA Composite两种技术，能够集成多个LoRA模型而无需微调，保持每个LoRA的权重完整性。研究人员使用GPT-4V对该方法进行了评测，结果显示LoRA Switch在图像合成质量方面表现卓越，而LoRA Composite在图像质量生成方面表现出色，效果随着LoRA数量增长而更加明显。

LoRA Switch的技术原理是在每个消噪步骤中选择性地激活一个LoRA模型，同时在多个LoRA模型之间轮流切换，确保每个元素都能得到充分的渲染。它由扩散模型、多个LoRA模型和切换功能组成，用户可以控制在消噪步骤中激活每个LoRA模型，以确保每个元素以精确和清晰的方式呈现。LoRA Switch可以避免直接融合LoRA权重矩阵时出现的不稳定问题，同时可以灵活调整LoRA之间的切换速率，适应不同的场景。

另一方面，LoRA Composite的技术原理是在每个消噪步骤计算每个LoRA的无条件和有条件分数估计，然后对这些分数进行平均，作为图像生成过程的指导。这种方法可以平衡不同LoRA的作用，实现更协调的成像合成。LoRA Composite综合了所有LoRA，并直接影响扩散过程，而不是操纵权重矩阵，可以集成任意数量的LoRA，突破了目前研究中通常只合并两个LoRA的技术限制。

研究人员还开发了面向LoRA组合图像生成的专业测试基准ComposLoRA，其中包含6大类、22个LoRA模型和480个组合样本，可以全面评价不同的LoRA组合。实验结果表明，新提出的两种组合方法相比目前主流的LoRA融合技术，可以实现更协调、逼真的多元素图像生成效果，尤其在使用数量较多的LoRA组合时，生成高质量的效果更加明显。

原文和模型

【原文链接】 阅读原文 [ 1060字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★☆

OpenAI ChatGPT

ChatGPT是OpenAI公司开发的一种大型语言模型。它是一种基于Transformer架构的深度学习模型，可以对语言进行建模和生成。它可以处理问答、对话生成、文本生成等多种任务。

# AIGC动态 # GPT-GPTs # 图像生成 # 大模型 # AIGC开放社区 # gpt-3.5-turbo-0125 # LoRA Composite # LoRA Switch # OpenAI # 图像合成 # 多元素 # 高质量

© 版权声明

文章版权归作者所有，未经允许请勿转载。

“绘蛙”

相关文章

免费 AI “神器”系列第八弹：全球首个 AI 软件工程师来袭；阿里版Sora模型爆火｜钛媒体AGI

钛媒体AGI

2,443

估值22亿美元，AI搜索的下一个独角兽

admin

2,184

如何从头开始编写LoRA代码，这有一份教程

机器之心

1,969

微软Copilot生成暴力色情图且拒不更改，内部工程师绝望举报至政府！

AI前线

3,673

国内复现Sora并开源：成本降低46%，序列扩充近百万！

AIGC开放社区

1,722

AI作曲家爆改周杰伦，华语乐坛一夜颠覆！Suno秒生爆款神曲，人人都成音乐家

新智元

2,529

“极客训练营”

暂无评论

暂无评论...