标签:计算效率

GPT-4.5 发布!OpenAI 史上最大最贵也可能是最慢那个,全网都在骂大街啦

OpenAI发布了GPT-4.5模型,目前以“研究预览”形式面向Pro订阅用户(每月200美元)和API开发者开放。该模型被官方称为“迄今知识最丰富的模型”,但明确强调其并...

何恺明ResNet级神作,分形生成模型计算效率狂飙4000倍!清华校友一作

何恺明团队最近提出了一种名为「分形生成模型」的新型AI图像生成技术,该技术通过模拟自然界中的分形现象,实现了高分辨率逐像素建模,并显著提升了计算效率...

开源赛道太挤了!月之暗面开源新版Muon优化器

月之暗面近期开源了改进版优化器Muon,其计算效率较AdamW提升2倍,并在相同训练预算下显著提升模型性能。通过引入权重衰减和一致的RMS更新技术,Muon成功解决...

DeepSeek为什么采用与主流大模型不一样的MoE架构?一文搞懂什么是MoE模型

混合专家模型(MoE)通过选择性激活子模型的方式显著提升计算效率,与传统Transformer架构形成鲜明对比。MoE模型每次计算仅激活5.5%的总参数量,而Qwen、LLam...

选择/杂交/突变,DeepMind将自然选择引入LLM思维,实现心智进化

最近,DeepSeek 和 Kimi 的推理模型更新引起了广泛关注。同时,谷歌 DeepMind、加州大学圣地亚哥分校和阿尔伯塔大学的研究者发表了一篇题为《Evolving Deeper...

扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式

纽约大学谢赛宁领导的团队近期研究了扩散模型在推理时的scaling效果,发现增加推理时间计算能显著提升扩散模型生成样本的质量。研究团队通过通用搜索框架系统...

「乘法变加法」!MIT清华校友全新方法优化Transformer:Addition is All You Need

近期,MIT的两位华人学者提出了一种名为L-Mul的新型乘法算法,旨在优化大规模语言模型(LLM)的能耗问题。LLM的能耗问题已经引起了联合国的关注,因为其能耗...

AI视频搜索这个方向不错,英伟达一口气投了5000万美元

Twelve Labs,一家专注于AI视频搜索的初创公司,在英伟达领投下完成了5000万美元融资。此举反映了英伟达自2023年以来对新兴AI企业的投资趋势,Twelve Labs的...

华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍

机器之心专栏近期介绍了一种基于频域的大语言模型架构——帝江,这一架构旨在解决现有大型Transformer模型在推理成本和训练成本上的问题。帝江模型通过频域自注...

CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT

北京大学的研究团队针对基于视频的三维人体姿态估计领域中Video Pose Transformer(VPT)的高计算成本问题,提出了一种新的高效三维人体姿态估计框架——沙漏To...
1 2