标签:方差

为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need

普林斯顿大学的研究团队从优化角度探讨了奖励模型在RLHF(基于人类反馈的强化学习)中的有效性,并揭示了仅依赖准确度评估奖励模型的局限性。研究表明,奖励...