标签:强化学习
逆天!Mata用13个参数26字节让模型正确率从76%飙升至91%
Meta FAIR等机构研究人员开发出一种名为TinyLoRA的极致微调技术,仅需调整13个参数(26字节)即可显著提升大语言模型的数学推理能力。该方法配合强化学习框架...
2026开年关键词:Self-Distillation,大模型真正走向「持续学习」
2026年初,大模型领域的研究焦点集中在自蒸馏(Self-Distillation)技术上,这一方法被视为解决持续学习瓶颈的关键突破。传统监督微调(SFT)在模型吸收新知...
天津大学牵头「拧干」RLVR「低效海绵」:ICLR 2026新作ReMix 让样本效率暴涨 30–450 倍
随着大语言模型在复杂推理任务中的广泛应用,强化学习已成为激发其深度思考潜力的核心范式。然而,当前主流的强化微调方法普遍面临严重的样本效率瓶颈,导致...
比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题
在技术快速发展的背景下,如何利用人工智能发现科学问题的新最优解成为业界关注的焦点。传统的「测试时搜索」方法依赖冻结的大语言模型(LLM)通过多次尝试改...
斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元
斯坦福大学、英伟达等机构的研究团队提出了一种名为TTT-Discover的创新方法,为大模型的持续学习开辟了新路径。该方法基于开源模型gpt-oss-120b,在数学、算...
美团智能体SOTA模型LongCat-Flash-Thinking-2601开源
美团龙猫团队开发的LongCat-Flash-Thinking-2601模型标志着智能体推理能力的重大突破。这个总参数5600亿、激活参数270亿的混合专家模型(MoE),在代理搜索、...
10B超越Gemini-2.5-Pro!阶跃星辰端侧多模态天花板开源
阶跃星辰多模态智能团队最新开源的STEP3-VL-10B模型以100亿参数规模实现了超越千亿参数模型的性能突破。该模型在数学推理、视觉感知及复杂指令遵循等任务中,...
人大高瓴赵鑫团队新作:先拆掉 RLVR,再重建推理模型训练
当大语言模型开始被要求解数学题、写证明、规划任务流程,人们才真正意识到一件事:会生成并不等于会推理。过去几年,行业通过扩大模型规模和采用RLHF等技术...
美团上线首个开源“重思考”模型
美团LongCat团队近日开源了升级版AI模型LongCat-Flash-Thinking-2601,该模型在智能体搜索、工具调用及工具交互推理等核心评测基准上达到开源模型领先水平。...
对话王小川:“语言才是中轴,多模态不是主战场”
百川智能于1月13日正式开源新一代医疗大模型Baichuan-M3,该模型在全球权威医疗AI评测HealthBench中以65.1分的综合成绩位列第一,并在复杂决策能力测试Health...



