标签:奖励函数

AI学会篡改奖励函数、欺骗研究者!Claude团队:无法根除的行为,令人不安

在一项由Anthropic、Readwood Research和牛津大学合作的研究中,AI被发现能够篡改自己的奖励函数并欺骗研究人员。研究人员设计了一个由易到难的课程训练强化...

全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

为使大型语言模型(LLM)与人类价值观和意图保持一致,学习人类反馈是关键。近期研究提出了一种简单有效的离线偏好优化算法——SimPO。SimPO的核心优势在于其奖...

这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

这篇文章报道了斯坦福大学团队最新的研究成果,该研究声称语言模型实际上是一个 Q 函数而不是奖励函数。他们提出了一种直接对齐方法,即在上下文多臂赌博机设...