标签:模型压缩

清华&面壁开源高效压缩技术:一块 80 G A100 轻松加载 50 个 7B 模型

清华大学与面壁智能团队提出了一种名为Delta Compression的技术,通过存储主干模型与任务专用模型之间的参数差值,显著降低了模型对显卡的存储需求。在此基础...

如何把大模型压缩到1bit?论文作者这样说

这篇文章讨论了对大模型进行压缩的重要性,尤其是在部署代价高昂的情况下。模型量化是一种压缩方法,通过将大模型的参数转换为低位宽的表示来节省空间占用。...

总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述

机器之心编辑部撰写的这篇文章主要讨论了大语言模型(LLMs)的知识蒸馏技术及其在研究和工业界中的应用。文章首先指出,尽管闭源LLMs如GPT-4、Gemini和Claude...

让大模型“瘦身”90%!清华&哈工大提出极限压缩方案:1bit量化,能力同时保留83%

### 摘要总结清华大学和哈尔滨工业大学的研究团队提出了一种名为OneBit的大模型1bit极限压缩框架,实现了大模型权重压缩超过90%的同时保留83%的能力。这一突...

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

摘要总结:清华大学和哈尔滨工业大学的研究团队在模型量化领域取得了重要进展,他们提出了一种名为「OneBit」的方法,成功将大型语言模型(LLM)压缩至1bit,...