标签:推理优化

以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!

随着大语言模型(LLM)参数规模的指数级增长,AI 的智力正在快速跃迁,但大模型在落地过程中面临着一系列推理层面的难题,如推理速度慢、计算成本高、部署效...

华为:让DeepSeek的“专家们”动起来,推理延迟降10%!

混合专家模型(MoE)因其能够将不同任务分配给擅长处理的专家网络而备受关注,但专家网络的负载均衡问题成为影响系统推理性能的关键因素。某些专家网络被频繁...

上交大冷静文:模型发展需要和芯片、系统厂商协同

上海交通大学与魔形智能联合研究团队在HPCA 2025会议上发表了论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Infer...

42.5 Exaflops:谷歌新TPU性能超越最强超算24倍,智能体协作协议A2A出炉

谷歌近日发布了第七代张量处理单元(TPU)Ironwood,标志着其AI芯片研发战略的重大转折。与前几代TPU不同,Ironwood是第一款专为推理而设计的芯片,旨在支持...

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

大语言模型(LLM)在推理领域的最新进展表明,通过扩展测试时计算可以显著提升模型的推理能力。OpenAI的o1系列等模型展示了这一潜力,尤其是在生成长推理链时...

DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek-R1作为AI产业颠覆式创新的代表,其训练与推理成本仅为同等性能大模型的数十分之一,核心在于多头潜在注意力网络(MLA)。MLA通过对键值缓存进行低秩...

阿里要开源史上最强推理模型,性能超过DeepSeek R1。

阿里巴巴今日凌晨发布了基于Qwen2.5-Max架构的推理模型QwQ-Max-Preview,并宣布即将通过Apache 2.0许可证全面开源QwQ-Max及Qwen2.5-Max。这一举措标志着阿里...

梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍

DeepSeek研究团队近期发布了一种名为NSA的新型注意力机制,其核心设计包含动态分层稀疏策略、粗粒度token压缩与细粒度token选择三大技术要素。该机制通过优化...

直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型

斯坦福大学、加州大学伯克利分校等机构联合发布了开源推理模型OpenThinker-32B,其性能接近当前最先进的DeepSeek-R1-32B模型。该模型仅使用114k训练数据(相...

选择/杂交/突变,DeepMind将自然选择引入LLM思维,实现心智进化

最近,DeepSeek 和 Kimi 的推理模型更新引起了广泛关注。同时,谷歌 DeepMind、加州大学圣地亚哥分校和阿尔伯塔大学的研究者发表了一篇题为《Evolving Deeper...
1 2