标签:多轮优化

田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理

强化学习在提升大型语言模型(LLM)能力的同时,自身也在不断进化。现实世界中的复杂任务通常需要一系列决策,而直接优化多轮目标(如成功率)是提升智能体性...