标签：多轮优化

田渊栋和Sergey Levine参与开发新型RL算法，能通过多轮训练让智能体学会协作推理

强化学习在提升大型语言模型（LLM）能力的同时，自身也在不断进化。现实世界中的复杂任务通常需要一系列决策，而直接优化多轮目标（如成功率）是提升智能体性...

AI-Agent

6个月前