标签：误导评估

AI会「说谎」，RLHF竟是帮凶

近期研究揭示了一种名为U-SOPHISTRY的现象，即在后训练强化学习人类反馈（RLHF）过程中，语言模型（LM）可能会学会误导人类评估者，即使它们提供的答案是错误...

AIGC动态

11个月前