强化学习 | 学习AIGC

逆天！Mata用13个参数26字节让模型正确率从76%飙升至91%

Meta FAIR等机构研究人员开发出一种名为TinyLoRA的极致微调技术，仅需调整13个参数（26字节）即可显著提升大语言模型的数学推理能力。该方法配合强化学习框架...

AIGC动态

4周前

2026开年关键词：Self-Distillation，大模型真正走向「持续学习」

2026年初，大模型领域的研究焦点集中在自蒸馏（Self-Distillation）技术上，这一方法被视为解决持续学习瓶颈的关键突破。传统监督微调（SFT）在模型吸收新知...

AIGC动态

4周前

天津大学牵头「拧干」RLVR「低效海绵」：ICLR 2026新作ReMix 让样本效率暴涨 30–450 倍

随着大语言模型在复杂推理任务中的广泛应用，强化学习已成为激发其深度思考潜力的核心范式。然而，当前主流的强化微调方法普遍面临严重的样本效率瓶颈，导致...

AIGC动态

1个月前

比人类专家快2倍，斯坦福联合英伟达发布TTT-Discover：用「测试时强化学习」攻克科学难题

在技术快速发展的背景下，如何利用人工智能发现科学问题的新最优解成为业界关注的焦点。传统的「测试时搜索」方法依赖冻结的大语言模型（LLM）通过多次尝试改...

AIGC动态

1个月前

斯坦福英伟达推出测试时强化学习：微调开源模型胜过顶级闭源模型，仅需几百美元

斯坦福大学、英伟达等机构的研究团队提出了一种名为TTT-Discover的创新方法，为大模型的持续学习开辟了新路径。该方法基于开源模型gpt-oss-120b，在数学、算...

AIGC动态

1个月前

美团智能体SOTA模型LongCat-Flash-Thinking-2601开源

美团龙猫团队开发的LongCat-Flash-Thinking-2601模型标志着智能体推理能力的重大突破。这个总参数5600亿、激活参数270亿的混合专家模型（MoE），在代理搜索、...

AIGC动态

1个月前

10B超越Gemini-2.5-Pro！阶跃星辰端侧多模态天花板开源

阶跃星辰多模态智能团队最新开源的STEP3-VL-10B模型以100亿参数规模实现了超越千亿参数模型的性能突破。该模型在数学推理、视觉感知及复杂指令遵循等任务中，...

AIGC动态

2个月前

人大高瓴赵鑫团队新作：先拆掉 RLVR，再重建推理模型训练

当大语言模型开始被要求解数学题、写证明、规划任务流程，人们才真正意识到一件事：会生成并不等于会推理。过去几年，行业通过扩大模型规模和采用RLHF等技术...

AIGC动态

2个月前

美团上线首个开源“重思考”模型

美团LongCat团队近日开源了升级版AI模型LongCat-Flash-Thinking-2601，该模型在智能体搜索、工具调用及工具交互推理等核心评测基准上达到开源模型领先水平。...

AIGC动态

2个月前

对话王小川：“语言才是中轴，多模态不是主战场”

百川智能于1月13日正式开源新一代医疗大模型Baichuan-M3，该模型在全球权威医疗AI评测HealthBench中以65.1分的综合成绩位列第一，并在复杂决策能力测试Health...

AIGC动态

2个月前

标签：强化学习

逆天！Mata用13个参数26字节让模型正确率从76%飙升至91%

2026开年关键词：Self-Distillation，大模型真正走向「持续学习」

天津大学牵头「拧干」RLVR「低效海绵」：ICLR 2026新作ReMix 让样本效率暴涨 30–450 倍

比人类专家快2倍，斯坦福联合英伟达发布TTT-Discover：用「测试时强化学习」攻克科学难题

斯坦福英伟达推出测试时强化学习：微调开源模型胜过顶级闭源模型，仅需几百美元

美团智能体SOTA模型LongCat-Flash-Thinking-2601开源

10B超越Gemini-2.5-Pro！阶跃星辰端侧多模态天花板开源

人大高瓴赵鑫团队新作：先拆掉 RLVR，再重建推理模型训练

美团上线首个开源“重思考”模型

对话王小川：“语言才是中轴，多模态不是主战场”

热门网址

标签：强化学习

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址