Karpathy新教程爆火，网友抢着送他H100：从头复现GPT-2训练

AIGC动态1年前 (2024)发布 QbitAI

2,155 0 0

文章摘要

AI领域的大神Karpathy近日成功复现了OpenAI的经典成果GPT-2，而且仅用了20美元、90分钟就完成了训练，令人震惊的是，其Loss和评测还超越了原版。他使用的是A100云服务，训练的是124M版本的GPT-2，并把自己的成功过程写成了完整教程，引起了广泛关注。

Karpathy此次复现GPT-2是基于他的llama.c代码库，许多超参数设置遵循了GPT-3的标准。他认为，按照Chinchilla定律的标准，GPT-2在100B tokens上训练应属于过度训练，124M模型按计算2.5B tokens就足够。然而，他实际上训练了10B tokens，并且使用了质量更高的FineWeb数据集，这可能是评测分数超越原版的原因。

此外，有网友注意到，Karpathy在训练时的GPU利用效率也比OpenAI的工作高，这主要因为他用的是单个云服务节点，无需考虑服务器间通信问题。他还自费200美元为大家复现了350M版本的GPT-2，并且同样取得了超越原版的成绩。

在生活方式方面，自今年二月份从OpenAI辞职后，Karpathy的生活节奏并非人们想象中那么“卷”。他的GitHub热力图显示，他在开始休息了一段时间后，从4月份开始变得越来越活跃。但实际上，他的工作时间安排比较自由，一周工作4-20小时不等，甚至还会出去旅游放松。

他分享了自己的自由职业心得：起床后直接开始工作，避免被外界信息分散注意力。这种工作方式或许能为其他自由职业者提供一些借鉴。