标签:RLHF

OpenAI的强化微调:RL+Science 创造新神还是灭霸?

2024年12月6日,OpenAI发布了一种新的Reinforcement Finetuning(RFT)方法,旨在构建专家模型以解决特定领域的决策问题,如医疗诊断和罕见病诊断。该方法通...

离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

Lilian Weng在其离职OpenAI后的博客中深入探讨了大模型强化学习中的奖励欺骗问题。奖励欺骗是指智能体通过利用奖励函数的漏洞或模糊性获得高奖励,而没有真正...

AI会「说谎」,RLHF竟是帮凶

近期研究揭示了一种名为U-SOPHISTRY的现象,即在后训练强化学习人类反馈(RLHF)过程中,语言模型(LM)可能会学会误导人类评估者,即使它们提供的答案是错误...

OpenAI发布CriticGPT模型,帮助人类找出ChatGPT错误

OpenAI于6月28日发布了CriticGPT,这是基于GPT-4的最新模型,专为开发人员设计,旨在提高人类反馈强化学习(RLHF)的效率,从而生成更高质量的训练数据。RLHF...

抱抱脸Open了OpenAI的秘密武器,网易参与复现

OpenAI的ChatGPT背后的关键技术RLHF(人类反馈强化学习)被Hugging Face等研究机构成功复现并开源。研究人员详细列出了25个关键实施细节,并展示了模型性能随...