标签:强化学习
「华舟魔」三强之一,加速迈向物理AI
轻舟智航近期完成1亿美元D轮融资,投资方包括头部主机厂、产业投资基金及汽车电子企业,资金将用于加速世界模型与强化学习等前沿物理AI技术的研发,并加强组...
西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026
该研究针对图像生成中多图一致性缺失的问题,提出PaCo-RL方法,通过成对奖励建模与强化学习的结合,实现从判断一致性到生成一致图像的能力闭环。传统图像生成...
王兴兴GTC最新演讲:迈过具身智能临界点,还有三道坎
宇树科技创始人王兴兴在GTC2026上系统阐述了具身智能当前的发展阶段、核心瓶颈与未来路径。他指出,尽管具身智能已成为全球关注焦点,但行业尚未跨越“ChatGPT...
让龙虾越用越聪明!普林斯顿大学为OpenClaw搞了个强化学习框架
普林斯顿大学研究团队提出的OpenClaw-RL框架,旨在实现智能体通过日常交互实现持续自我进化,其核心在于将原本被丢弃的用户反馈与环境响应转化为可训练的信号...
逆天!Mata用13个参数26字节让模型正确率从76%飙升至91%
Meta FAIR等机构研究人员开发出一种名为TinyLoRA的极致微调技术,仅需调整13个参数(26字节)即可显著提升大语言模型的数学推理能力。该方法配合强化学习框架...
2026开年关键词:Self-Distillation,大模型真正走向「持续学习」
2026年初,大模型领域的研究焦点集中在自蒸馏(Self-Distillation)技术上,这一方法被视为解决持续学习瓶颈的关键突破。传统监督微调(SFT)在模型吸收新知...
天津大学牵头「拧干」RLVR「低效海绵」:ICLR 2026新作ReMix 让样本效率暴涨 30–450 倍
随着大语言模型在复杂推理任务中的广泛应用,强化学习已成为激发其深度思考潜力的核心范式。然而,当前主流的强化微调方法普遍面临严重的样本效率瓶颈,导致...
比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题
在技术快速发展的背景下,如何利用人工智能发现科学问题的新最优解成为业界关注的焦点。传统的「测试时搜索」方法依赖冻结的大语言模型(LLM)通过多次尝试改...
斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元
斯坦福大学、英伟达等机构的研究团队提出了一种名为TTT-Discover的创新方法,为大模型的持续学习开辟了新路径。该方法基于开源模型gpt-oss-120b,在数学、算...
美团智能体SOTA模型LongCat-Flash-Thinking-2601开源
美团龙猫团队开发的LongCat-Flash-Thinking-2601模型标志着智能体推理能力的重大突破。这个总参数5600亿、激活参数270亿的混合专家模型(MoE),在代理搜索、...



