文章摘要
【关 键 词】 AI安全、规则奖励、模型训练、行为评估、人机比较
随着大型语言模型(LLM)如ChatGPT的普及,确保其输出安全性变得至关重要。然而,传统的基于人类反馈的强化学习(RLHF)方法存在成本高昂和潜在偏见的问题。为了解决这些问题,OpenAI提出了一种新的安全对齐奖励方法——基于规则的奖励(Rule Based Rewards,简称RBR)。
RBR方法通过将期望的行为分解为一系列具体规则,使研究人员能够对模型的输出进行细粒度控制。这些规则明确描述了期望和不期望的行为,例如在拒绝请求时包含简短的道歉,或在回应自我伤害对话时包含同情的道歉。这种方法允许研究人员以一种安全和负责任的方式,对模型的输出进行精确调节。
为了实现细粒度控制,RBR构建了一系列命题,这些命题是关于模型输出的二元陈述,它们是评估模型行为的基础。研究人员将这些命题组合成规则,定义了在特定情况下哪些命题的组合是期望的,哪些是不期望的。例如,在处理自我伤害相关的请求时,模型的响应应该包含共情的道歉,并且避免提供具体的自我伤害方法。
RBR还利用合成数据生成技术,根据行为政策生成各种合成完成情况,这些完成情况代表了理想完成、次优完成和不可接受完成。合成数据不仅用于训练模型,也用于评估和调整RBR的权重,确保模型的输出符合预期的规则。这些合成数据为模型提供了丰富的学习样本,帮助它理解在不同情境下应该如何做出恰当的响应。
研究人员对RBR进行了测试,将其训练的模型与人类安全数据基线训练的模型进行了比较。实验结果显示,RBR能够在提高安全性的同时,最大限度地减少过度拒绝的情况,实现了更安全的输出。在内部安全评估中,RBR训练的模型(RBR – PPO)在安全性和过度拒绝指标上表现出色,F1分数达到97.1,高于人类反馈基线的91.7和有助益基线的95.8。这表明RBR方法在确保LLM输出安全性方面具有显著优势。
原文和模型
【原文链接】 阅读原文 [ 1191字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆