这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数
文章摘要
【关 键 词】 语言模型、奖励函数、多臂赌博机、强化学习、token层
这篇文章报道了斯坦福大学团队最新的研究成果,该研究声称语言模型实际上是一个 Q 函数而不是奖励函数。他们提出了一种直接对齐方法,即在上下文多臂赌博机设置中使用奖励函数与策略之间的关系来同时优化这两者,这种方法与传统的强化学习方法有根本性的不同。研究者们通过实验表明,这种方法可以隐含地学习到一个 token 层面的奖励函数,并且能够在 token MDP 内灵活地建模任意可能的密集奖励函数。他们还进行了实验,证明了这种方法在学习 credit assignment 和执行多轮对话等方面的有效性。此外,研究还指出了对初始策略和参考分布的选择对训练期间隐性奖励的影响,以及未来可能的研究方向,如让语言模型学会推理、执行多轮对话、生成图像和视频等。总体而言,这项研究为将强化学习应用于语言模型中提供了新的思路和可能性。
原文和模型
【原文链接】 阅读原文 [ 1799字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...