加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

 

文章摘要


【关 键 词】 扩散模型图像生成视频生成模型加速技术创新

本文介绍了一种名为Hyper-SD的新型扩散模型蒸馏框架,由字节跳动技术团队提出,旨在解决现有扩散模型在图像生成和视频生成任务中的高计算成本问题。Hyper-SD结合了轨迹保持蒸馏和轨迹重构蒸馏两种策略的优点,在压缩去噪步数的同时保持接近无损的性能,取得了卓越的加速效果。

背景与挑战:扩散模型在图像生成领域取得了显著进展,但推理过程中的多步迭代去噪特性导致计算成本高。现有加速方法分为轨迹保持蒸馏和轨迹重构蒸馏,但存在效果天花板有限和输出域变化的问题。

Hyper-SD模型:
1. 轨迹分段一致性蒸馏: Hyper-SD首先引入轨迹分段一致性蒸馏,将整个时间步范围划分为多个段,并在每个段内强制保持一致性。通过逐渐减少段的数量,实现全时一致性,解决了模型拟合能力和推理误差累积导致的性能次优问题。

2. 人类反馈学习(RLHF): 利用RLHF提升模型生成效果,弥补加速过程中的损失,使模型更好地适应低步数推理。

3. 分数蒸馏: 使用分数蒸馏增强一步生成性能。

4. 统一的LORA实现: 通过统一的LORA实现理想化的全时间步数一致扩散模型,取得卓越成果。

实验与验证:Hyper-SD在SDXL和SD1.5两种架构上,1到8步生成中实现了SOTA级别的图像生成性能。项目主页、论文链接、Huggingface链接、单步生成Demo链接和实时画板Demo链接已提供。

方法详解:轨迹分段一致性蒸馏: 通过将时间步范围划分为k段并逐步执行分段一致模型蒸馏,细化训练过程。训练损失计算涉及原始模型、学生模型的指数滑动平均(EMA)等。

总结:Hyper-SD作为一种新颖的扩散模型蒸馏框架,通过结合轨迹保持和重构策略的优点,实现了在压缩去噪步数的同时保持接近无损的性能,显著加速了扩散模型的推理过程。该模型已在多个架构上验证了其SOTA级别的图像生成性能,为图像生成和视频生成任务带来了新的发展机遇。

原文和模型


【原文链接】 阅读原文 [ 4726字 | 19分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...