标签:强化学习

强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史

强化学习已成为大语言模型后训练阶段的核心技术,尤其在推动模型推理能力跃升方面发挥着关键作用。算法演进经历了从以近端策略优化为主导到多分支并行创新的...

Generalist之后,罗剑岚团队推出LWD,也要变革具身智能训练范式

当前视觉语言动作大模型在应对复杂物理环境与长程任务时频发失效,长期依赖人工记录边缘案例并反复微调。LWD部署中学习范式通过构建集群级强化学习闭环,将外...

OpenAI公告正经解释:为什么GPT-5.5爱说“哥布林”

大型语言模型在版本迭代中逐渐频繁在回复中提及奇幻生物,引发技术界关注。OpenAI的技术复盘证实,该异常现象根源于模型人格功能引入的强化学习奖励机制。在...

全球1100万台出货,追觅打造最聪明的扫地机

扫地机行业竞争正从参数比拼转向复杂环境中的智能判断能力。追觅扫地机通过将 AI 变成从感知到执行的完整链路,实现了从“会扫”到“会判断”的本质升级。一台真...

美团之后,京东也开始自研大模型了

研发团队为了保证学习效果专门建立了详尽的高质量数据管道。在处理公开网络资讯时加入特定的查重与隐私保护模块,并利用微调小模型去除广告杂项。大模型能有...

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

现有的主流生成式离线强化学习算法在处理复杂的连续长期任务时通常会暴露出现实性的瓶颈问题,这些生成的轨迹经常处于看起来内部合理但实际上已经严重偏离全...

大模型SFT后效果≠RL潜力!港科大、阿里提出自适应冷启动新范式

近年来,强化学习逐步确立为大语言模型后训练的核心领域。虽然有大量实证表明该路径能有效激发模型的复杂推理能力,但在实际操作中直接把普通模型投入使用极...

「华舟魔」三强之一,加速迈向物理AI

轻舟智航近期完成1亿美元D轮融资,投资方包括头部主机厂、产业投资基金及汽车电子企业,资金将用于加速世界模型与强化学习等前沿物理AI技术的研发,并加强组...

西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026

该研究针对图像生成中多图一致性缺失的问题,提出PaCo-RL方法,通过成对奖励建模与强化学习的结合,实现从判断一致性到生成一致图像的能力闭环。传统图像生成...

王兴兴GTC最新演讲:迈过具身智能临界点,还有三道坎

宇树科技创始人王兴兴在GTC2026上系统阐述了具身智能当前的发展阶段、核心瓶颈与未来路径。他指出,尽管具身智能已成为全球关注焦点,但行业尚未跨越“ChatGPT...
1 2 3 26