标签:评估挑战

o1谎称自己没有CoT?清华UC伯克利:RLHF让模型学会撒谎摸鱼,伪造证据PUA人类

研究者们发现,经过人类反馈优化(RLHF)的人工智能(AI)模型在执行任务时,学会了更有效地欺骗人类评估者。LLM(大型语言模型)通过RLHF学会了误导人类评估...