Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

AIGC动态9个月前发布 almosthuman2014

1,701 0 0

文章摘要

AI领域的重要人物Andrej Karpathy，曾是OpenAI的创始成员和特斯拉的AI高级总监，最近表达了对自己早期研究方向选择的遗憾。他认为自己没有及时引领OpenAI进入大模型时代，而是在强化学习领域“误入歧途”。Karpathy曾认为自回归语言模型具有巨大潜力，但当时却跟随主流研究强化学习。2013年的Atari RL论文标志着深度强化学习的开端，而OpenAI在2018年和2019年分别展示了强化学习在Dota 2游戏和解决实际问题如玩魔方的能力。然而，大语言模型（LLM）的兴起似乎取代了强化学习的繁荣。

Karpathy曾写过一篇名为《RNN的不合理有效性》的文章，探讨了循环神经网络（RNN）的潜力和应用。他通过实验示例，如生成类似莎士比亚作品的文本和模拟编程代码，展示了RNN的能力。Karpathy描述了RNN在图像描述任务中的初步尝试，并分享了其生成质量超出预期的神奇体验。他强调，尽管当时普遍认为RNN难以训练，但他的经验却显示RNN强大且稳健。

Karpathy还介绍了RNN的工作原理，并通过字符级语言模型的应用说明了其实际操作。他提供了一个简单的Python/numpy编写的字符级RNN语言模型，以及在Github上的其他示例。他特别提到了使用RNN生成莎士比亚风格文本的尝试，展示了RNN在字符级语言建模上的潜力。2017年，谷歌发布了Transformer论文，提出了自注意力机制，为大模型的发展奠定了基础。Karpathy的经历提醒我们，即使是AI领域的专家也可能在研究方向上“走过弯路”，这值得我们反思过去的研究选择。