文章摘要
OpenAI最近发布了一篇关于CriticGPT的新论文,这是前超级对齐团队的最后一项工作之一。CriticGPT基于GPT-4训练,旨在纠正GPT-4生成的代码错误,实现自我批评。
CriticGPT的训练方法依然采用了RLHF(Reinforcement Learning from Human Feedback),但其创新之处在于通过人为注入错误来训练模型生成批评意见。人类训练师对这些批评意见进行评分和排名,以改进模型的准确性和全面性。
FSBS策略在生成更长、更全面的批评意见时,减少了无中生有或挑剔现象的发生率。实验结果显示,CriticGPT在检测错误方面表现优异,尤其是在捕捉人为篡改的错误和原始输出中的错误方面。
评估结果表明,CriticGPT生成的批评意见在63%的情况下比人类的更受青睐。研究团队发现,人类评估者在没有LLM帮助下只能发现约25%的人为注入的错误,而CriticGPT和ChatGPT的表现都超过了人类。
研究还提出了人机合作模式的优势,结合人类和CriticGPT的团队表现能够超越单独工作时的效果。总体而言,CriticGPT通过自我批评和人类监督的结合,展示了AI模型自我提升的潜力。
原文和模型
【原文链接】 阅读原文 [ 2607字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4o
【摘要评分】 ★★★★☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...