GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开

AIGC动态6个月前发布 AIera
1,163 0 0
GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开

 

文章摘要


【关 键 词】 tag标签提取总结分析

OpenAI最近发布了一篇关于CriticGPT的新论文,这是前超级对齐团队的最后一项工作之一。CriticGPT基于GPT-4训练,旨在纠正GPT-4生成的代码错误,实现自我批评。

CriticGPT的训练方法依然采用了RLHF(Reinforcement Learning from Human Feedback),但其创新之处在于通过人为注入错误来训练模型生成批评意见。人类训练师对这些批评意见进行评分和排名,以改进模型的准确性和全面性。

FSBS策略在生成更长、更全面的批评意见时,减少了无中生有或挑剔现象的发生率。实验结果显示,CriticGPT在检测错误方面表现优异,尤其是在捕捉人为篡改的错误和原始输出中的错误方面。

评估结果表明,CriticGPT生成的批评意见在63%的情况下比人类的更受青睐。研究团队发现,人类评估者在没有LLM帮助下只能发现约25%的人为注入的错误,而CriticGPT和ChatGPT的表现都超过了人类。

研究还提出了人机合作模式的优势,结合人类和CriticGPT的团队表现能够超越单独工作时的效果。总体而言,CriticGPT通过自我批评和人类监督的结合,展示了AI模型自我提升的潜力。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2607字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4o
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...