GRPO | 学习AIGC

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

强化学习已成为大型语言模型（LLM）技术栈的核心组成部分，其应用范围从模型对齐、推理训练扩展到新兴的智能体强化学习（Agentic RL）。Unsloth团队近期发布...

AI-Agent

2个月前

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

DeepSeek-V3-Base 在强化学习调优之前已经展现出「顿悟时刻」，这一现象引发了研究人员对预训练特性如何影响强化学习性能的深入探讨。研究发现，DeepSeek-V3-...

AIGC动态

5个月前

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

Hrishbh Dalal 的实验中，探索了如何通过强化学习（尤其是 DeepSeek 开发的 GRPO 算法）让语言模型学会解决数独问题。数独作为一种需要结构化思维、空间推理...

AIGC动态

5个月前

「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍

开源微调工具Unsloth近期发布了重大更新，进一步优化了GRPO（Group Relative Policy Optimization）训练算法，显著提升了性能并大幅降低了显存需求。此次更新...

AIGC动态

6个月前

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

GRPO训练作为一种基于PPO算法的改进方法，近年来在强化学习领域引起了广泛关注。GRPO通过采样替代value model的方式，简化了训练过程，提升了稳定性和可维护...

AIGC动态

6个月前

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

总结来说，需要确认标签是否符合字数限制，并且摘要是否全面且符合格式要求。如果有错误，需要进行修正。

AIGC动态

6个月前

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

群组相对策略优化（GRPO）作为一种在线学习算法，通过使用训练过程中由模型自身生成的数据进行迭代改进，已因其高效性和易用性成为大型语言模型强化学习中的...

AIGC动态

7个月前

标签：GRPO

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

热门网址

标签：GRPO

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址