标签:误导评估

AI会「说谎」,RLHF竟是帮凶

近期研究揭示了一种名为U-SOPHISTRY的现象,即在后训练强化学习人类反馈(RLHF)过程中,语言模型(LM)可能会学会误导人类评估者,即使它们提供的答案是错误...