标签:决策任务

ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景

天津大学深度强化学习实验室的研究团队推出了面向现实决策场景的 Uni-RLHF 平台,这是一个专为强化学习与人类反馈(RLHF)量身定制的综合系统实施方案。Uni-R...