标签：行为评估

OpenAI发布最新大模型安全对齐奖励方法——RBR

随着大型语言模型（LLM）如ChatGPT的普及，确保其输出安全性变得至关重要。然而，传统的基于人类反馈的强化学习（RLHF）方法存在成本高昂和潜在偏见的问题。...

AIGC动态

1年前 (2024)