标签:模型剪枝
DeepSeek并非完美,训练过程存在“深度诅咒”
近年来,高性能大模型的训练面临深层网络效率低下的难题。研究表明,以DeepSeek、Qwen、Llama和Mistral为代表的模型在训练过程中,深层网络对整体性能的贡献...
YOPO: 大幅缩减你的多模态大模型计算量至12%
本研究由罗切斯特大学的张泽良博士生、徐辰良副教授以及Adobe的赵文天、万锟和李宇哲研究员共同完成,提出了一种针对多模态大模型的剪枝方法,旨在降低计算复...
英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强
Meta公司推出的Llama 3.1系列模型,包括一个405B的超大型模型和两个较小的模型,虽然性能卓越,但对计算资源的需求巨大。为解决这一问题,业界开始关注小型语...