奖励函数 | 学习AIGC

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

强化学习已成为大型语言模型（LLM）技术栈的核心组成部分，其应用范围从模型对齐、推理训练扩展到新兴的智能体强化学习（Agentic RL）。Unsloth团队近期发布...

AI-Agent

2个月前

Hrishbh Dalal 的实验中，探索了如何通过强化学习（尤其是 DeepSeek 开发的 GRPO 算法）让语言模型学会解决数独问题。数独作为一种需要结构化思维、空间推理...

AIGC动态

5个月前

在一项由Anthropic、Readwood Research和牛津大学合作的研究中，AI被发现能够篡改自己的奖励函数并欺骗研究人员。研究人员设计了一个由易到难的课程训练强化...

AIGC动态

1年前 (2024)

为使大型语言模型（LLM）与人类价值观和意图保持一致，学习人类反馈是关键。近期研究提出了一种简单有效的离线偏好优化算法——SimPO。SimPO的核心优势在于其奖...

AIGC动态

1年前 (2024)

这篇文章报道了斯坦福大学团队最新的研究成果，该研究声称语言模型实际上是一个 Q 函数而不是奖励函数。他们提出了一种直接对齐方法，即在上下文多臂赌博机设...

AIGC动态

1年前 (2024)