清华&面壁开源高效压缩技术:一块 80 G A100 轻松加载 50 个 7B 模型

AIGC动态1个月前发布 ai-front
302 0 0
清华&面壁开源高效压缩技术:一块 80 G A100 轻松加载 50 个 7B 模型

 

文章摘要


【关 键 词】 模型压缩Delta-CoMe低秩分解多模态任务推理速度

清华大学与面壁智能团队提出了一种名为Delta Compression的技术,通过存储主干模型与任务专用模型之间的参数差值,显著降低了模型对显卡的存储需求。在此基础上,团队进一步结合低秩分解与低比特量化,提出了混合精度压缩方法Delta-CoMe。该方法在几乎不损失任务性能的前提下,大幅提升了模型推理效率,实现了一块80G A100 GPU无损性能加载多达50个7B模型。

Delta-CoMe方法结合低秩与低比特量化,利用了Delta低秩的特点,并发现低秩分解后的Delta是长尾分布的;之后采用混合精度量化进一步节省。与Bitdelta等方法相比,在math、code、Multi-modal等复杂任务上,性能与原始模型表现基本接近。此外,Delta-CoMe实现了Triton kernel对比Pytorch实现方式,带来近3x的推理速度提升。

实验结果表明,使用Llama-2-7B作为主干模型,在数学、代码、对话、多模态等多个任务中进行实验,Delta-CoMe展现出平均几乎无损的性能。实验还在Mistral、Llama-3等其他主干模型上进行验证。通过实现Triton kernel,相比于Pytorch的实现方式,推理速度提升了约3倍。实验结果表明,使用一块80G的A100 GPU可以加载50个7B模型。Delta-CoMe对比Delta-tuning在相同的存储开销下,性能显著提升。

Delta-CoMe通过结合低秩分解和低比特量化,实现了大幅度的存储压缩,并在复杂任务如数学推理、代码生成和多模态任务上维持了与原始模型相当的性能表现。与传统的微调方法相比,Delta-CoMe展现出了更高的效率和灵活性,尤其在多租户和多任务场景中具有显著的应用价值。借助Triton kernel的优化,推理速度得到了显著提升,使得部署大规模模型成为可能。未来,这一方法的潜力不仅在于进一步优化模型存储和推理速度,也有望在更广泛的实际应用中推动大语言模型的普及和高效运作。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1679字 | 7分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...