标签:推理
Mamba 架构实现推理性能超 Gemma3-27B!推理模型开始迈入「无注意力」时代
PromptCoT-Mamba-7B是首个实现解码显存常量、计算复杂度线性、长上下文稳定扩展且具备强推理能力的模型,标志着推理大模型首次完全不依赖注意力机制而运作。...
无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力
新加坡国立大学、清华大学和Salesforce AI Research的研究者提出了一种名为“元能力对齐”的训练框架,旨在提升大型推理模型在数学、编程和科学问题上的基本推...
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
研究团队提出两种专为推理“量身定制”的注意力机制——Grouped-Tied Attention(GTA)和Grouped Latent Attention(GLA),旨在优化大语言模型的推理效率和硬件...
40位数学家组成8队与o4-mini-medium比赛,6队败北
Epoch AI 最近组织了一场人机数学竞赛,邀请了40位数学家组成8支队伍,与OpenAI的o4-mini-medium模型进行对决。竞赛题目来自高难度的FrontierMath数据集,旨...
英伟达再破世界纪录,每秒1000 token!刚刚,全球最快Llama 4诞生
英伟达通过Blackwell架构在AI推理领域取得了突破性进展,单节点(8颗Blackwell GPU)的DGX B200服务器实现了Llama 4 Maverick模型每秒单用户生成1000个token...
纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源
a-m-team 最近发布了一篇名为“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的论文,探讨了在推理模型训练中蒸馏数据源的重要...
DeepSeek们越来越聪明,却也越来越不听话了。
近年来,随着AI推理能力的提升,模型在执行任务时被认为应该更加聪明。然而,这种聪明却带来了一个意想不到的副作用:提示词遵循能力逐渐下降,模型变得越来...
LLM又曝致命缺陷:根本不会看时钟!博士惊呆,准确率不及50%
最新研究揭示了AI在处理看似简单的任务时存在的显著认知缺陷,尤其是在读取时钟和判断日期方面。尽管AI在复杂任务如论文写作、绘画和考试中表现出色,但在这...
华为+DeepSeek,推理性能创新高!技术报告也公布出来了
华为昇腾在超大规模MoE模型推理部署领域取得了显著突破,其推理性能全面超越了英伟达的Hopper架构。这一成就主要归功于华为昇腾的“以数学补物理”策略,通过数...