Anthropic公开Claude 3,像人类一样特殊性格训练方法

AIGC动态4个月前发布 AIGCOPEN
584 0 0
Anthropic公开Claude 3,像人类一样特殊性格训练方法

 

文章摘要


【关 键 词】 人工智能个性化训练合规安全监督学习强化学习

Anthropic在其最新大模型Claude 3中引入了一种个性化性格训练方法。该方法名为“Constitutional AI: Harmlessness from AI Feedback”,其核心在于在确保输出安全、合法的同时,保留模型的个性化特点,防止内容过于单一。

Anthropic指出,过于严格的合规对齐会导致模型失去个性和智能的表现。

该技术的实施分为两个阶段:监督学习强化学习。在监督学习阶段,模型首先生成对潜在有害提示的响应,然后自我批评并识别响应中的有害内容。

随后,通过批评请求和修订请求模块,模型反思并改进其输出,确保不包含有害、不道德、歧视性或非法元素。这个过程可迭代进行,不断引入新原则,提高响应的多样性和深度。

在强化学习阶段,Anthropic利用反馈模型评估并选择符合Constitutional AI原则的响应,通过比较两个响应,选出更无害的一个。

这种选择被构建为多项选择题,以此训练偏好模型。该模型能够为样本分配分数,评估其符合原则的程度,并作为强化学习中的奖励信号。

通过这一过程,模型能够依据偏好模型的反馈调整策略,生成更合规的响应。

随着不断的迭代和优化,模型的行为最终将达到一个稳定且符合原则的状态。

这种训练方法不仅增强了模型的安全性,还维护了其创新性和个性化输出,从而实现了超强性能的关键之一。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1480字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 glm-4
【摘要评分】 ★★★☆☆

© 版权声明

相关文章

暂无评论

暂无评论...