标签:多臂赌博机

这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

这篇文章报道了斯坦福大学团队最新的研究成果,该研究声称语言模型实际上是一个 Q 函数而不是奖励函数。他们提出了一种直接对齐方法,即在上下文多臂赌博机设...