标签:强化学习
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
DeepSeek与清华大学的研究人员提出了一种名为自我原则批评调整(SPCT)的新方法,旨在提升通用奖励模型(GRM)在推理阶段的可扩展性。该方法通过结合拒绝式微...
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
DeepSeek-R1的成功依赖于一种名为GRPO(组相对策略优化)的强化学习算法。与PPO(近端策略优化)不同,GRPO直接根据组分数估计基线,从而消除了对critic模型...
Agent 正在重新划分大模型竞争格局
大模型与强化学习是Agent的核心技术,决定了其自主性和执行能力。Agent作为人工智能时代的“AI Being”,能够完成从理解任务、思考推理到决策执行的全流程,区...
模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平
Databricks公司推出了一种名为TAO(Test-time Adaptive Optimization)的新型模型调优方法,该方法无需标注数据即可完成大型语言模型(LLMs)的微调。TAO的核...
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
OPPO研究院与香港科技大学(广州)的研究人员提出了一项名为OThink-MR1的新技术,旨在通过动态强化学习提升多模态大模型的泛化推理能力。多模态大模型虽然能...
ICLR 2025 Spotlight|让机器人实现“自主进化” 蚂蚁数科与清华联合提出具身协同框架BodyGen
BodyGen 框架通过结合强化学习与深度神经网络技术,实现了机器人形态与控制策略的自主协同设计,为具身智能的加速进化提供了全新的思路。该框架由蚂蚁数科与...
推理延展到真实物理世界,英伟达Cosmos-Reason1:8B具身推理表现超过OpenAI ο1
在基于物理世界的真实场景中进行视觉问答时,现有的AI模型往往无法识别出参考选项中没有最佳答案的情况。例如,当问题要求预测车辆接下来的行动时,预设选项...
田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理
强化学习在提升大型语言模型(LLM)能力的同时,自身也在不断进化。现实世界中的复杂任务通常需要一系列决策,而直接优化多轮目标(如成功率)是提升智能体性...
揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案
DeepSeek-V3-Base 在强化学习调优之前已经展现出「顿悟时刻」,这一现象引发了研究人员对预训练特性如何影响强化学习性能的深入探讨。研究发现,DeepSeek-V3-...
强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍
普林斯顿大学与华沙理工的研究表明,将对比强化学习(CRL)扩展到1000层可以显著提升性能,在某些机器人任务中性能提升高达50倍。这一发现挑战了传统观点,即...