标签:性能保持
创新突破!字节跳动首创无需数据,1.58位超低量化自监督生成
字节跳动研究人员针对大型语言模型(LLM)在推理和生成过程中占用大量内存的问题,提出了一种创新的量化方法。该方法不依赖实际图像数据,仅利用模型自身的自...
YOPO: 大幅缩减你的多模态大模型计算量至12%
本研究由罗切斯特大学的张泽良博士生、徐辰良副教授以及Adobe的赵文天、万锟和李宇哲研究员共同完成,提出了一种针对多模态大模型的剪枝方法,旨在降低计算复...
极大降低大模型训练内存需求,Meta等推出高效方法
该文章介绍了一个名为GaLore的高效训练方法,旨在解决大型语言模型在预训练过程中对内存需求过高的问题。研究人员发现,在训练过程中,梯度矩阵会自然呈现出...
清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!
摘要总结:清华大学和哈尔滨工业大学的研究团队在模型量化领域取得了重要进展,他们提出了一种名为「OneBit」的方法,成功将大型语言模型(LLM)压缩至1bit,...