标签:知识蒸馏

英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强

Meta公司推出的Llama 3.1系列模型,包括一个405B的超大型模型和两个较小的模型,虽然性能卓越,但对计算资源的需求巨大。为解决这一问题,业界开始关注小型语...

英伟达开源新大模型:训练数据减少40倍,算力节省1.8倍

全球人工智能领域的领军企业英伟达(Nvidia)近期开源了两款基于Meta公司Llama-3.1 8B模型的大模型:Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B。这两...

总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述

机器之心编辑部撰写的这篇文章主要讨论了大语言模型(LLMs)的知识蒸馏技术及其在研究和工业界中的应用。文章首先指出,尽管闭源LLMs如GPT-4、Gemini和Claude...

让大模型“瘦身”90%!清华&哈工大提出极限压缩方案:1bit量化,能力同时保留83%

### 摘要总结清华大学和哈尔滨工业大学的研究团队提出了一种名为OneBit的大模型1bit极限压缩框架,实现了大模型权重压缩超过90%的同时保留83%的能力。这一突...