360AI推出DiT架构下”省钱版”ControlNet, 参数量骤减85%性能达到SOTA！

682 0 0

文章摘要

【关键词】 高效控制、Diffusion Transformer、参数优化、轻量化设计、生成框架

360人工智能研究院提出新型可控生成框架RelaCtrl，通过优化控制信号集成方式和引入轻量化模块设计，有效解决了现有Diffusion Transformer方法存在的参数冗余和计算效率低下问题。该研究针对传统DiT受控生成方法未能有效处理不同Transformer层间控制信息相关性的缺陷，创新性地提出基于相关性引导的资源分配策略。

研究团队首先通过系统化实验揭示控制网络层间相关性存在显著差异的规律：控制相关性呈现先增加后减弱的动态趋势，前中心层具有较高相关性，深层则表现出较低相关性。基于该发现，研究人员开发了”ControlNet相关性得分”评估体系，通过跳过不同控制层后测量生成图像质量（FID）和控制精度（HDD），最终筛选出11个关键控制位置进行条件注入，相较于传统方法减少了15%的参数量。

在架构设计层面，研究团队创新性地提出二维shuffle混合器（TDSM）技术，将token混合和通道混合统一为可逆操作。该技术通过随机通道选择和token维度空间打乱策略，在保持语义信息完整性的同时打破局部注意力限制，实现了跨维度的高效信息交互。相较于传统Transformer块，TDSM将控制模块参数量压缩至原结构的7.38%，计算复杂度降低8.61%。

实验验证显示，RelaCtrl在COCO数据集上实现了控制精度提升15%、文本相似度提高12%的显著效果，同时将推理速度提升至传统方法的1.3倍。在参数量仅增加7.38%的情况下，其FID指标相比ControlNet方法优化了23%。研究还证实该框架具备良好的社区模型兼容性，可有效适配不同风格的Lora微调权重，生成包括像素艺术、古典油画等多元风格的受控图像。

该方法首次将层间相关性分析引入Diffusion Transformer的受控生成领域，为后续研究提供了新的技术范式。通过开源项目主页和代码仓库，研究团队已实现技术方案的全方位开放，其轻量化设计思路对移动端AI生成应用具有重要参考价值。在保持生成质量的前提下，RelaCtrl将推理时间缩短18%的突破性进展，为实时可控生成技术的实际部署铺平了道路。