
文章摘要
【关 键 词】 T-LoRA框架、图像生成、过度拟合、参数初始化、实验验证
随着预训练大型文本到图像扩散模型发展,企业和个人开发者探索通过少量样本对模型定制化,但面临训练样本有限时模型过度拟合问题,导致生成图像缺乏多样性和灵活性。为解决此难题,AIRI 和 HSE 大学研究团队提出 T – LoRA 新框架。
T – LoRA 框架核心在于动态调整模型在不同时间步的训练能力以及特殊的参数初始化方法。在扩散模型生成图像过程中,早期高噪声阶段模型生成大致轮廓,后期低噪声阶段完善细节。T – LoRA 动态调整训练能力,在高噪声阶段减少模型对训练数据依赖,低噪声阶段增加依赖,通过掩码机制根据时间步动态调整参数更新,像给训练过程装“调节阀”,提高生成图像多样性和灵活性。
在参数初始化方面,T – LoRA 引入正交初始化方法。参数初始化影响模型训练,正交初始化确保不同时间步学习时参数间信息流独立,避免冗余和干扰,提高学习效率和泛化能力。它通过特殊数学方法将参数分解初始化,让模型有效利用参数。
研究人员进行广泛实验验证 T – LoRA 有效性。单图像实验中,T – LoRA 在图像相似度和文本相似度指标表现出色,与传统 LoRA 方法相比,高秩情况下文本相似度提高,图像相似度仅小幅度下降,保持图像概念准确性同时提高生成图像与文本提示一致性。多图像定制化任务中,T – LoRA 同样优于 LoRA 和 OFT 等方法,如两张图像训练时,文本相似度提升且图像相似度下降小。用户研究显示,用户更倾向 T – LoRA 生成的图像,在概念准确性、文本一致性和整体偏好方面偏好率均超 59%。
原文和模型
【原文链接】 阅读原文 [ 1344字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★☆☆☆