标签:强化学习
更长思维并不等于更强推理性能,强化学习可以很简洁
著名研究者和技术作家 Sebastian Raschka 解读了一篇来自 Wand AI 的强化学习研究,该研究分析了推理模型生成较长响应的原因。研究发现,推理模型生成较长响...
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
「推理」已成为语言模型的下一个主要前沿领域,学术界和工业界在探索模型推理性能提升的过程中,提出了一个核心问题:什么方法有效,什么方法无效?近期研究...
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令
加州大学伯克利分校的研究团队开发了一种名为AssistanceZero的新算法,旨在通过Assistance Games框架改进AI助手的训练方式。这一方法的核心在于AI助手与用户...
阿里开源R1-Omni,多模态情感识别
阿里巴巴通义实验室的研究人员开源了多模态情感识别模型R1-Omni,该模型首次将强化学习与可验证奖励(RLVR)应用于多模态大模型,显著提升了情感识别任务中的...
谷歌等最新研究,合成数据可将大模型数学推理提升8倍
随着大模型如ChatGPT的快速发展,对高质量训练数据的需求呈指数级增长,预计最快将在2026年耗尽现有的300万亿tokens的公开数据集。为了解决这一问题,合成数...
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
DeepSeek与清华大学合作发布了一篇名为《Inference-Time Scaling for Generalist Reward Modeling》的论文,提出了SPCT(Self-Principled Critique Tuning)...
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
DeepSeek与清华大学的研究人员提出了一种名为自我原则批评调整(SPCT)的新方法,旨在提升通用奖励模型(GRM)在推理阶段的可扩展性。该方法通过结合拒绝式微...
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
DeepSeek-R1的成功依赖于一种名为GRPO(组相对策略优化)的强化学习算法。与PPO(近端策略优化)不同,GRPO直接根据组分数估计基线,从而消除了对critic模型...
Agent 正在重新划分大模型竞争格局
大模型与强化学习是Agent的核心技术,决定了其自主性和执行能力。Agent作为人工智能时代的“AI Being”,能够完成从理解任务、思考推理到决策执行的全流程,区...
模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平
Databricks公司推出了一种名为TAO(Test-time Adaptive Optimization)的新型模型调优方法,该方法无需标注数据即可完成大型语言模型(LLMs)的微调。TAO的核...