标签:强化学习
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
大语言模型(LLM)的生成能力虽然强大,但其输出是否符合人类偏好需要依赖奖励模型(Reward Model, RM)的精准评判。奖励模型在大模型训练中扮演着关键角色,...
RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开
著名大模型训练平台Together.ai与Agentica联合开源了创新的AI Agent框架DeepSWE。该框架基于阿里最新开源的Qwen3-32B模型,完全通过强化学习训练而成。DeepSW...
强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!
大规模预训练和微调的模式在机器学习领域取得了显著成功,但在强化学习(RL)中的应用仍面临挑战。强化学习需要对时间和意图进行推理,传统方法在处理长时间...
Kimi Researcher团队自述:Agent不是缝合怪,它就是模型(附内测名额)
月之暗面(Moonshot AI)推出了其首个AI Agent产品——Kimi Researcher,该产品定位为一个能够生成带引用来源的深度研究报告的AI Agent,而不仅仅是一个简单的...
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
过去几年,基于人类偏好的强化学习(RLHF)成为大语言模型(LLM)后训练阶段的关键技术,显著提升了模型的对齐能力,并拓展了其在推理增强、智能体交互等场景...
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
强化学习已成为大型语言模型(LLM)技术栈的核心组成部分,其应用范围从模型对齐、推理训练扩展到新兴的智能体强化学习(Agentic RL)。Unsloth团队近期发布...
00后投身具身智能创业,剑指机器人界「Model 3」!已推出21个自由度灵巧手
灵初智能最新推出的自研灵巧手具备21个自由度,远超市面上常见的6自由度抓取器,支持16主动自由度,能够完成夹持、旋转、精准插拔等精细操作。这一技术突破在...
5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!
Claude 4核心成员Sholto Douglas和Trenton Bricken在播客节目中提出,仅依靠强化学习(RL)和数据收集就足以在5年内实现通用人工智能(AGI),并自动化白领工...
推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本
推荐系统正经历由大型语言模型(LLM)驱动的范式变革。传统级联架构因算力碎片化、目标冲突等问题面临瓶颈,而快手提出的端到端生成式系统OneRec通过整合Enco...
北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈
卢宗青是一位具身智能领域的创业者,拥有深厚的学术背景和实践经验。他曾在北京大学担任计算机学院长聘副教授,并负责过多个国家级科研项目。他的研究领域从...