标签:RLHF

AI会「说谎」,RLHF竟是帮凶

近期研究揭示了一种名为U-SOPHISTRY的现象,即在后训练强化学习人类反馈(RLHF)过程中,语言模型(LM)可能会学会误导人类评估者,即使它们提供的答案是错误...

OpenAI发布CriticGPT模型,帮助人类找出ChatGPT错误

OpenAI于6月28日发布了CriticGPT,这是基于GPT-4的最新模型,专为开发人员设计,旨在提高人类反馈强化学习(RLHF)的效率,从而生成更高质量的训练数据。RLHF...

抱抱脸Open了OpenAI的秘密武器,网易参与复现

OpenAI的ChatGPT背后的关键技术RLHF(人类反馈强化学习)被Hugging Face等研究机构成功复现并开源。研究人员详细列出了25个关键实施细节,并展示了模型性能随...