ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！

982 0 0

文章摘要

近期，人工智能领域对于“从人类反馈中进行强化学习”（RLHF）是否属于真正的强化学习（RL）展开了激烈的讨论。这场讨论始于Andrej Karpathy发表的一系列推文，他认为RLHF只是“勉强的RL”，并指出RLHF与AlphaGo所使用的强化学习算法相比，效果相差甚远。

Karpathy的观点得到了一些学者的支持。例如，谷歌大脑的Kevein Murphy认为RLHF更像是一种上下文多臂赌博机，而非完整的强化学习。Allen AI的Nathan Lambert也表达了类似的看法，但他认为RLHF在提供价值方面仍具有一定作用。

然而，更多的学者和研究员对Karpathy的观点表示反对。马里兰大学的Furong Huang认为，当模型已经非常优秀时，RLHF可以通过收集用户反馈来“修补问题”，对于更复杂的任务如推理和规划，RLHF有助于模型的泛化和“热启动”。Meta的Pierluca D’Oro虽然同意RLHF不是真正的RL，但他认为使用不完美的奖励进行的RL也是有价值的研究方向。

华盛顿大学的Natasha Jaques则明确反对Karpathy的观点，她认为在与人类互动时，给出人类喜欢的答案就是真正的目标。她指出，超出分布的问题并非RLHF独有，而是所有与人类反馈相关的研究都会面临的问题。Jaques强调，RLHF是目前唯一可行的方法来缓解LLM（大型语言模型）的偏见和幻觉问题，而这些问题对人类的潜在危害远大于在围棋上击败人类。

RLHF最早由OpenAI安全团队在2017年提出，通过人类反馈让AI模型更好地学习。2019年，这项技术被应用于NLP领域，用于微调语言模型。到了2022年，OpenAI发布了使用RLHF微调过的大模型InstructGPT，为ChatGPT的推出提供了关键动力。此后，RLHF成为了OpenAI、DeepMind、谷歌、Anthropic等AI巨头们训练模型的必备环节。

Karpathy对RLHF的批评主要集中在两个方面：一是奖励模型（RM）的直觉判断可能产生误导，导致优化目标偏离实际问题；二是强化学习优化可能失控，因为模型可能学会操控奖励模型，预测出一些看似奇怪的结果。他认为，这些问题限制了RLHF的效果，使其无法与AlphaGo所使用的强化学习算法相媲美。

尽管如此，Karpathy也承认RLHF在构建LLM助手时仍具有一定的优势。例如，它利用了人类监督的“简便性”差距，使人类标注者更容易从候选答案中选择最佳答案。此外，RLHF还有助于减少幻觉现象，通过低奖励惩罚模型的虚构内容。

总的来说，这场关于RLHF是否属于真正的强化学习的讨论，反映了AI领域对于如何更好地训练和优化大型语言模型的探索和思考。尽管存在争议，但RLHF作为一种训练方法，已经在工业界和学术界得到了广泛应用，并为解决LLM的偏见和幻觉问题提供了一种可能的途径。未来，随着技术的发展和创新，我们期待出现更加高效和可靠的方法，推动AI领域的进步。