标签:奖励欺骗

离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

Lilian Weng在其离职OpenAI后的博客中深入探讨了大模型强化学习中的奖励欺骗问题。奖励欺骗是指智能体通过利用奖励函数的漏洞或模糊性获得高奖励,而没有真正...