标签:强化学习
出人意料!DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了
DeepSeek-R1模型的核心强化学习算法GRPO通过分组分数替代价值模型,显著降低了训练资源消耗。然而,阶跃星辰与清华大学的最新研究表明,采用带GAE(λ=1,γ=1...
机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA
ByteDance Research与上海交通大学合作提出的WMP框架,首次将世界模型技术应用于四足机器人视觉控制领域,为解决传统特权学习方法的局限性提供了新思路。通过...
DeepSeek满血微调秘籍来了,全网首发打破低价内卷!解锁升级版全家桶
Colossal-AI近期发布了开源大模型后训练工具箱,旨在帮助开发者通过低成本方式对DeepSeek V3/R1等大规模模型进行监督微调与强化学习优化。该工具箱支持高达67...
DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍
DeepSeek V3/R1等大模型在开源社区广泛应用的背景下,如何通过后训练技术实现低成本、高质量的私有模型定制成为行业焦点。Colossal-AI推出的开源大模型后训练...
DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此
Colossal-AI团队近期推出开源大模型后训练工具箱,为开发者提供低成本构建私有模型的解决方案。该工具箱支持对DeepSeek-V3/R1-671B等大模型进行全流程优化,...
强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好
研究团队通过系统分析揭示了强化学习训练中数据质量与模型推理能力提升的内在关联。核心发现表明,训练样本的质量和相关性远比数量重要,这一结论对传统认知...
DeepSeek 颠覆了什么?学习不靠“人盯”,AI自己“卷”自己
DeepSeek 在近期推出的 R1 模型及其 Zero 研究,通过纯强化学习路线实现了推理模型的突破性进展。其核心创新在于证明无需过程监督数据,仅依靠结果控制即可训...
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
上海AI Lab针对大语言模型在数学推理任务中面临的稀疏奖励困境、局部正确陷阱及规模依赖魔咒,提出了基于结果奖励的强化学习新范式OREAL。该框架通过正样本模...
Kimi复现OpenAI o1模型的关键思考过程
近期大模型领域呈现激烈竞争态势,DeepSeek R1与月之暗面Kimi 1.5推理模型相继展现技术突破。尽管Kimi团队通过通俗易懂的技术解析展示了其创新成果,但因未开...
DeepSeek R1 之后,重新理解推理模型
对推理模型的技术发展与行业应用分析显示,这类模型通过多步骤生成和中间思考过程解决复杂任务,其核心优势体现在解谜、数学证明与编码挑战等场景。“推理”被...