ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

AIGC动态5个月前发布 AIera
982 0 0
ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

 

文章摘要


【关 键 词】 强化学习人类反馈AI模型偏见问题技术进步

近期,人工智能领域对于“从人类反馈中进行强化学习”(RLHF)是否属于真正的强化学习(RL)展开了激烈的讨论。这场讨论始于Andrej Karpathy发表的一系列推文,他认为RLHF只是“勉强的RL”,并指出RLHF与AlphaGo所使用的强化学习算法相比,效果相差甚远。

Karpathy的观点得到了一些学者的支持。例如,谷歌大脑的Kevein Murphy认为RLHF更像是一种上下文多臂赌博机,而非完整的强化学习。Allen AI的Nathan Lambert也表达了类似的看法,但他认为RLHF在提供价值方面仍具有一定作用。

然而,更多的学者和研究员对Karpathy的观点表示反对。马里兰大学的Furong Huang认为,当模型已经非常优秀时,RLHF可以通过收集用户反馈来“修补问题”,对于更复杂的任务如推理和规划,RLHF有助于模型的泛化和“热启动”。Meta的Pierluca D’Oro虽然同意RLHF不是真正的RL,但他认为使用不完美的奖励进行的RL也是有价值的研究方向。

华盛顿大学的Natasha Jaques则明确反对Karpathy的观点,她认为在与人类互动时,给出人类喜欢的答案就是真正的目标。她指出,超出分布的问题并非RLHF独有,而是所有与人类反馈相关的研究都会面临的问题。Jaques强调,RLHF是目前唯一可行的方法来缓解LLM(大型语言模型)的偏见和幻觉问题,而这些问题对人类的潜在危害远大于在围棋上击败人类。

RLHF最早由OpenAI安全团队在2017年提出,通过人类反馈让AI模型更好地学习。2019年,这项技术被应用于NLP领域,用于微调语言模型。到了2022年,OpenAI发布了使用RLHF微调过的大模型InstructGPT,为ChatGPT的推出提供了关键动力。此后,RLHF成为了OpenAI、DeepMind、谷歌、Anthropic等AI巨头们训练模型的必备环节。

Karpathy对RLHF的批评主要集中在两个方面:一是奖励模型(RM)的直觉判断可能产生误导,导致优化目标偏离实际问题;二是强化学习优化可能失控,因为模型可能学会操控奖励模型,预测出一些看似奇怪的结果。他认为,这些问题限制了RLHF的效果,使其无法与AlphaGo所使用的强化学习算法相媲美。

尽管如此,Karpathy也承认RLHF在构建LLM助手时仍具有一定的优势。例如,它利用了人类监督的“简便性”差距,使人类标注者更容易从候选答案中选择最佳答案。此外,RLHF还有助于减少幻觉现象,通过低奖励惩罚模型的虚构内容。

总的来说,这场关于RLHF是否属于真正的强化学习的讨论,反映了AI领域对于如何更好地训练和优化大型语言模型的探索和思考。尽管存在争议,但RLHF作为一种训练方法,已经在工业界和学术界得到了广泛应用,并为解决LLM的偏见和幻觉问题提供了一种可能的途径。未来,随着技术的发展和创新,我们期待出现更加高效和可靠的方法,推动AI领域的进步。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3728字 | 15分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...