标签：方差

为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need

普林斯顿大学的研究团队从优化角度探讨了奖励模型在RLHF（基于人类反馈的强化学习）中的有效性，并揭示了仅依赖准确度评估奖励模型的局限性。研究表明，奖励...

AIGC动态

5个月前