标签:强化学习
3倍提速!现在你跑不过机器狗了,限制波士顿动力机器狗的竟然是电池功率?
波士顿动力的Spot机器狗通过强化学习技术实现了运动性能的显著突破。最新研究显示,Spot的奔跑速度从出厂时的1.6米/秒提升至18.7千米/时,接近小型犬20千米/...
1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法
阶跃星辰与清华大学联合发布的Open Reasoner Zero(ORZ)模型在强化学习训练方法上取得突破性进展。该研究采用极简主义方法,仅使用带有GAE的原版PPO算法和基...
10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现
荷兰开发者Raz采用轻量级强化学习算法Reinforce-Lite,以低于10美元的成本在3B参数规模的模型上复现了DeepSeek的'顿悟时刻'。该方法通过简化传统强化学习的复...
出人意料!DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了
DeepSeek-R1模型的核心强化学习算法GRPO通过分组分数替代价值模型,显著降低了训练资源消耗。然而,阶跃星辰与清华大学的最新研究表明,采用带GAE(λ=1,γ=1...
机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA
ByteDance Research与上海交通大学合作提出的WMP框架,首次将世界模型技术应用于四足机器人视觉控制领域,为解决传统特权学习方法的局限性提供了新思路。通过...
DeepSeek满血微调秘籍来了,全网首发打破低价内卷!解锁升级版全家桶
Colossal-AI近期发布了开源大模型后训练工具箱,旨在帮助开发者通过低成本方式对DeepSeek V3/R1等大规模模型进行监督微调与强化学习优化。该工具箱支持高达67...
DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍
DeepSeek V3/R1等大模型在开源社区广泛应用的背景下,如何通过后训练技术实现低成本、高质量的私有模型定制成为行业焦点。Colossal-AI推出的开源大模型后训练...
DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此
Colossal-AI团队近期推出开源大模型后训练工具箱,为开发者提供低成本构建私有模型的解决方案。该工具箱支持对DeepSeek-V3/R1-671B等大模型进行全流程优化,...
强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好
研究团队通过系统分析揭示了强化学习训练中数据质量与模型推理能力提升的内在关联。核心发现表明,训练样本的质量和相关性远比数量重要,这一结论对传统认知...
DeepSeek 颠覆了什么?学习不靠“人盯”,AI自己“卷”自己
DeepSeek 在近期推出的 R1 模型及其 Zero 研究,通过纯强化学习路线实现了推理模型的突破性进展。其核心创新在于证明无需过程监督数据,仅依靠结果控制即可训...