推理优化 | 学习AIGC

最强3B「小钢炮」，代码数据全公开！推理随意开关，128k超长上下文

Hugging Face最新推出的30亿参数模型SmolLM3，以其全面开源和卓越性能成为小模型领域的标杆。该模型支持128k长上下文处理，并在多语言任务中展现出色表现，同...

AIGC动态

2个月前

长文本推理 5 倍提速！面壁MiniCPM4 端侧模型发布，0.5B模型效果秒杀同级

新一代端侧AI模型MiniCPM4.0发布，包含8B和0.5B两种参数规模，在性能、速度和部署效率上实现显著突破。8B稀疏闪电版通过5%的极致稀疏度实现长文本推理速度5倍...

AIGC动态

3个月前

以加代乘？华为数学家出手，昇腾算子的高能设计与优化，性能提升30%！

随着大语言模型（LLM）参数规模的指数级增长，AI 的智力正在快速跃迁，但大模型在落地过程中面临着一系列推理层面的难题，如推理速度慢、计算成本高、部署效...

AIGC动态

4个月前

华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

混合专家模型（MoE）因其能够将不同任务分配给擅长处理的专家网络而备受关注，但专家网络的负载均衡问题成为影响系统推理性能的关键因素。某些专家网络被频繁...

AIGC动态

4个月前

上交大冷静文：模型发展需要和芯片、系统厂商协同

上海交通大学与魔形智能联合研究团队在HPCA 2025会议上发表了论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Infer...

AIGC动态

5个月前

42.5 Exaflops：谷歌新TPU性能超越最强超算24倍，智能体协作协议A2A出炉

谷歌近日发布了第七代张量处理单元（TPU）Ironwood，标志着其AI芯片研发战略的重大转折。与前几代TPU不同，Ironwood是第一款专为推理而设计的芯片，旨在支持...

AI-Agent

5个月前

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

大语言模型（LLM）在推理领域的最新进展表明，通过扩展测试时计算可以显著提升模型的推理能力。OpenAI的o1系列等模型展示了这一潜力，尤其是在生成长推理链时...

AIGC动态

6个月前

DeepSeek的MLA，任意大模型都能轻松迁移了

DeepSeek-R1作为AI产业颠覆式创新的代表，其训练与推理成本仅为同等性能大模型的数十分之一，核心在于多头潜在注意力网络（MLA）。MLA通过对键值缓存进行低秩...

AIGC动态

7个月前

阿里要开源史上最强推理模型，性能超过DeepSeek R1。

阿里巴巴今日凌晨发布了基于Qwen2.5-Max架构的推理模型QwQ-Max-Preview，并宣布即将通过Apache 2.0许可证全面开源QwQ-Max及Qwen2.5-Max。这一举措标志着阿里...

AI-Agent

7个月前

梁文锋亲自挂名，DeepSeek 最新论文丢出注意力新机制，推理速度直线提升 11 倍

DeepSeek研究团队近期发布了一种名为NSA的新型注意力机制，其核心设计包含动态分层稀疏策略、粗粒度token压缩与细粒度token选择三大技术要素。该机制通过优化...

AIGC动态

7个月前

标签：推理优化

最强3B「小钢炮」，代码数据全公开！推理随意开关，128k超长上下文

长文本推理 5 倍提速！面壁MiniCPM4 端侧模型发布，0.5B模型效果秒杀同级

以加代乘？华为数学家出手，昇腾算子的高能设计与优化，性能提升30%！

华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

上交大冷静文：模型发展需要和芯片、系统厂商协同

42.5 Exaflops：谷歌新TPU性能超越最强超算24倍，智能体协作协议A2A出炉

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

DeepSeek的MLA，任意大模型都能轻松迁移了

阿里要开源史上最强推理模型，性能超过DeepSeek R1。

梁文锋亲自挂名，DeepSeek 最新论文丢出注意力新机制，推理速度直线提升 11 倍

热门网址

标签：推理优化

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址