这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数

AIGC动态1年前 (2024)发布 almosthuman2014

746 0 0

这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数

文章摘要

【关键词】 语言模型、奖励函数、多臂赌博机、强化学习、token层

这篇文章报道了斯坦福大学团队最新的研究成果，该研究声称语言模型实际上是一个 Q 函数而不是奖励函数。他们提出了一种直接对齐方法，即在上下文多臂赌博机设置中使用奖励函数与策略之间的关系来同时优化这两者，这种方法与传统的强化学习方法有根本性的不同。研究者们通过实验表明，这种方法可以隐含地学习到一个 token 层面的奖励函数，并且能够在 token MDP 内灵活地建模任意可能的密集奖励函数。他们还进行了实验，证明了这种方法在学习 credit assignment 和执行多轮对话等方面的有效性。此外，研究还指出了对初始策略和参考分布的选择对训练期间隐性奖励的影响，以及未来可能的研究方向，如让语言模型学会推理、执行多轮对话、生成图像和视频等。总体而言，这项研究为将强化学习应用于语言模型中提供了新的思路和可能性。

原文和模型

【原文链接】 阅读原文 [ 1799字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

OpenAI ChatGPT

ChatGPT是OpenAI公司开发的一种大型语言模型。它是一种基于Transformer架构的深度学习模型，可以对语言进行建模和生成。它可以处理问答、对话生成、文本生成等多种任务。

# AIGC动态 # 图像生成 # 大模型 # 视频生成 # token层 # 多臂赌博机 # 奖励函数 # 强化学习 # 语言模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

“绘蛙”

相关文章

聊聊我构建SMoE模型的过程

AI大模型实验室

2,874

OpenAI Deep Research专访：Agent 的未来是端到端、强化学习微调

Founder Park

1,747

大视频模型是世界模型？DeepMind/UC伯克利华人一作：预测下一帧就能改变世界

新智元

1,910

他们掰开神经元，终于让大模型9.8大于9.11了：神秘创业公司，开源AI「洗脑」工具

机器之心

2,321

阿里开源新模型：媲美DeepSeek-R1，参数大降20倍！

AIGC开放社区

1,185

离职OpenAI后Lilian Weng博客首发！深扒RL训练漏洞，业内狂赞

新智元

1,418

“极客训练营”

暂无评论

暂无评论...