纯C语言手搓GPT-2，前OpenAI、特斯拉高管新项目火了

AIGC动态1年前 (2024)发布 almosthuman2014

2,535 0 0

文章摘要

【关键词】 Andrej Karpathy、C语言、GPT-2、llm.c、机器学习

Andrej Karpathy，前特斯拉Autopilot负责人和OpenAI科学家，近日发布了一个名为「llm.c」的项目，该项目仅使用大约1000行纯C语言代码，就能在CPU/fp32上实现GPT-2模型的训练。

这一成就在机器学习社区引起了广泛讨论，项目在GitHub上的Star数量在短时间内迅速增加。

Karpathy选择从GPT-2开始，是因为它是大型语言模型（LLM）的先驱，具有现代形式的组合，并且已有可用的模型权重。

在llm.c项目中，所有所需的内存在开始时一次性分配，训练过程中不会创建或销毁任何内存，内存占用量保持不变。

项目手动实现了所有单个层的前向和后向传递，并将它们串联起来，例如layernorm、编码器、matmul、自注意力、gelu、残差、softmax和交叉熵损失等。

Karpathy目前正在将项目逐层移植到CUDA上，以提高效率，并期待能在PyTorch的合理范围内提升性能，但不依赖于任何重型依赖项。

他还计划将项目的精度从fp32降低到fp16/以下，并增加一些新层以支持更现代的架构。

使用llm.c需要下载并tokenize数据集，例如tinyshakespeare数据集。

项目提供了一个脚本来下载GPT-2权重并将其保存为C语言中可加载的检查点。

然后，使用这些权重进行初始化并进行训练。

编译完成后，可以运行训练程序，并使用Adam优化器进行微调。

生成的token ID需要解码回文本，这可以通过C语言或其他工具实现。

Karpathy还提供了单元测试来确保C代码与PyTorch代码一致，并附上了一个教程，介绍如何用C语言实现GPT-2模型的单个层（layernorm层）。

他还计划制作关于从头开始用C语言编写大模型的视频教程。

此外，机器之心还宣布将于4月13日在北京海淀举办AI技术论坛，聚焦于视频生成技术、多模态大模型等前沿领域的技术突破和应用实践。

原文和模型

【原文链接】 阅读原文 [ 1954字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4
【摘要评分】 ★★★★☆

OpenAI GPT-4

GPT-4是OpenAI公司开发的自然...

# AIGC动态 # GPT-GPTs # 大模型 # 视频生成 # Andrej Karpathy # Azure # C语言 # GPT-2 # gpt-4 # llm.c # 机器之心

文章版权归作者所有，未经允许请勿转载。

GPT-5红队测试邮件曝光，最早6月发布？网友在线逼问Altman，数十亿美元超算26年启动

新智元

2,536

Transformer七子重聚GTC，老黄亲自赠送签名版DGX-1！7年奠基之作背后佚事揭秘

新智元

2,123

CVPR 2024 | 面部+肢体动画，一个框架搞定从音频生成数字人表情与动作

机器之心

1,740

免费AI“神器”第十三弹：会20种语言的克隆数字人突然爆火；美国 AI 机器人能提前0.8秒预测人类表情｜钛媒体AGI

钛媒体AGI

2,558

ICLR 2024 | 连续学习不怕丢西瓜捡芝麻，神经形态方法保护旧知识

机器之心

2,076

今日AGI要闻：受益于AI，全球前10大富豪身价年内增长3.6万亿；Sora或需72万块英伟达最新芯片

钛媒体AGI

2,982

暂无评论

暂无评论...

纯C语言手搓GPT-2，前OpenAI、特斯拉高管新项目火了

文章摘要

原文和模型

OpenAI创始大神手搓千行C代码训练GPT，附PyTorch迁移教程

2024年WAIC·云帆奖启航：擎启AGI时代，集结超越边界的探索者

相关文章

暂无评论

热门网址

热门文章

纯C语言手搓GPT-2，前OpenAI、特斯拉高管新项目火了

文章摘要

原文和模型

OpenAI创始大神手搓千行C代码训练GPT，附PyTorch迁移教程

2024年WAIC·云帆奖启航：擎启AGI时代，集结超越边界的探索者

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章