标签:计算优化

梁文锋、杨植麟同一天发论文“秀肌肉”,主题居然撞上了!下一代模型要来了?

2月18日,DeepSeek与月之暗面同时发布针对Transformer注意力机制改进的研究成果,聚焦于降低计算复杂度并提升长文本处理效率。这一技术竞争凸显了行业对高效...

苹果也在蒸馏大模型,给出了蒸馏Scaling Laws

苹果研究人员提出的蒸馏扩展定律为量化评估知识蒸馏效果提供了理论框架。该定律通过计算预算在教师模型与学生模型之间的分配关系,能够预测不同配置下学生模...

YOPO: 大幅缩减你的多模态大模型计算量至12%

本研究由罗切斯特大学的张泽良博士生、徐辰良副教授以及Adobe的赵文天、万锟和李宇哲研究员共同完成,提出了一种针对多模态大模型的剪枝方法,旨在降低计算复...

MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

谷歌DeepMind的研究科学家Xu Owen He最近提出了一种名为PEER(参数高效专家检索)的新技术,该技术能够将混合专家(MoE)模型的专家数量扩展到百万级别,同时...

从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗

在深度学习领域,矩阵乘法(MatMul)一直占据着核心地位,尤其是在语言模型中。然而,这一操作在计算开销和内存访问方面占据了很大比例。近期,来自加州大学...

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

多模态大模型(MLLM)在视觉任务中展现出强大的认知理解能力,但目前大多数模型局限于单向的图像理解,难以在图像上进行精确定位。这一问题限制了模型在图像...