标签:计算效率

DeepSeek为什么采用与主流大模型不一样的MoE架构?一文搞懂什么是MoE模型

混合专家模型(MoE)通过选择性激活子模型的方式显著提升计算效率,与传统Transformer架构形成鲜明对比。MoE模型每次计算仅激活5.5%的总参数量,而Qwen、LLam...

选择/杂交/突变,DeepMind将自然选择引入LLM思维,实现心智进化

最近,DeepSeek 和 Kimi 的推理模型更新引起了广泛关注。同时,谷歌 DeepMind、加州大学圣地亚哥分校和阿尔伯塔大学的研究者发表了一篇题为《Evolving Deeper...

扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式

纽约大学谢赛宁领导的团队近期研究了扩散模型在推理时的scaling效果,发现增加推理时间计算能显著提升扩散模型生成样本的质量。研究团队通过通用搜索框架系统...

「乘法变加法」!MIT清华校友全新方法优化Transformer:Addition is All You Need

近期,MIT的两位华人学者提出了一种名为L-Mul的新型乘法算法,旨在优化大规模语言模型(LLM)的能耗问题。LLM的能耗问题已经引起了联合国的关注,因为其能耗...

AI视频搜索这个方向不错,英伟达一口气投了5000万美元

Twelve Labs,一家专注于AI视频搜索的初创公司,在英伟达领投下完成了5000万美元融资。此举反映了英伟达自2023年以来对新兴AI企业的投资趋势,Twelve Labs的...

华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍

机器之心专栏近期介绍了一种基于频域的大语言模型架构——帝江,这一架构旨在解决现有大型Transformer模型在推理成本和训练成本上的问题。帝江模型通过频域自注...

CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT

北京大学的研究团队针对基于视频的三维人体姿态估计领域中Video Pose Transformer(VPT)的高计算成本问题,提出了一种新的高效三维人体姿态估计框架——沙漏To...

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

摘要总结:清华大学和哈尔滨工业大学的研究团队在模型量化领域取得了重要进展,他们提出了一种名为「OneBit」的方法,成功将大型语言模型(LLM)压缩至1bit,...