抱抱脸Open了OpenAI的秘密武器，网易参与复现

AIGC动态2年前 (2024)发布 QbitAI

3,625 0 0

文章摘要

【关键词】 RLHF、OpenAI、模型复现、Pythia模型、训练细节

OpenAI的ChatGPT背后的关键技术RLHF（人类反馈强化学习）被Hugging Face等研究机构成功复现并开源。研究人员详细列出了25个关键实施细节，并展示了模型性能随模型大小增加而提升的scaling行为。特别地，2.8B和6.9B的Pythia模型在性能上超过了OpenAI发布的1.3B模型。

研究人员的复现工作选择了OpenAI早期的RLHF工作，即摘要任务，作为研究对象。RLHF包括三个步骤：监督微调（SFT）、奖励模型（RM）训练和强化学习（RL）策略训练。在SFT阶段，研究人员使用Reddit TL;DR数据集进行微调。在RM阶段，基于人类标注员的偏好数据训练模型。在RL阶段，使用PPO算法优化RLHF目标函数。

研究人员在复现过程中注意到了数据预处理、SFT和RM训练的多个细节。例如，在数据预处理阶段，OpenAI采用了特定的截断策略和token填充方法。在SFT阶段，研究人员发现标准的下一个token预测损失足以进行训练。而在RM训练阶段，他们发现RM只在EOS token处提取奖励，并且奖励的logits除了EOS token外几乎都是负数。

在PPO训练阶段，研究人员发现值函数logits通常更为正面，并使用了EOS技巧来处理不以EOS token结束的完成序列。他们还尝试了奖励白化处理，发现这会略微降低与参考摘要的胜率并缩短完成token的长度。通过长度控制分析，研究人员发现PPO模型几乎总是优于SFT模型。

研究人员的工作不仅提供了对OpenAI RLHF技术的深入理解，还通过开源代码和模型checkpoint，为学术界和开发者提供了宝贵的资源。这一成果有助于推动大型语言模型训练方法的进步和开放性。

论文和代码的公开发布，为AI研究社区提供了进一步探索和改进RLHF方法的机会。此外，研究人员的工作展示了开源合作的力量，以及如何通过共享知识和资源来加速技术的发展。随着AI技术的不断进步，此类开源项目对于维持技术发展的透明度和可访问性至关重要。