标签：规则奖励

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

AI领域学者Andrej Karpathy对当前人工智能对话模型的“智能”成分提出了质疑。他认为，人工智能实际上是通过模仿人工标注数据进行训练的语言模型，因此将对话视...

AIGC动态

9个月前

OpenAI发布最新大模型安全对齐奖励方法——RBR

随着大型语言模型（LLM）如ChatGPT的普及，确保其输出安全性变得至关重要。然而，传统的基于人类反馈的强化学习（RLHF）方法存在成本高昂和潜在偏见的问题。...

AIGC动态

1年前 (2024)