五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

AIGC动态1年前 (2024)发布 almosthuman2014

2,184 0 0

五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

文章摘要

【关键词】 GPT-2模型、训练成本、C语言实现、高效训练、模型转换

2019年2月，OpenAI发布了具有15亿参数的GPT-2模型，该模型在文本生成方面表现出色，充分利用了预训练的Transformer架构，被认为是大型预言模型的始祖。

现在在配备8个H100 GPU的节点上训练GPT-2仅需672美元，且只需24小时。

Karpathy在其用纯C语言复现GPT-2大模型的项目“llm.c”中分享了训练心得。

他指出，由于计算硬件、软件和数据质量的改进，大语言模型的训练成本在过去五年里大幅下降。

Karpathy表示，llm.c项目从他考虑为教育视频重现GPT-2开始，虽然过程中遇到了一些困难，但最终项目非常成功，代码量约5000行，编译和运行速度快，内存占用恒定，训练效率高。

尽管Karpathy对llm.c项目的运行结果还不是完全满意，他认为评估应该更好，训练应该更稳定，尤其是在长时间运行的较大模型尺寸下。

llm.c的目标是为功能齐全的LLM智能体提供简单、最小、干净的训练堆栈，直接使用C/CUDA，并包含配套的教育材料。

Karpathy使用更长的400B token GPT-2运行，效果良好，直到330B（达到61% HellaSwag，远高于这个大小的GPT-2和GPT-3），然后模型爆炸。

在GitHub上，Karpathy提供了详细的训练说明，包括安装依赖、下载数据集、编译和运行训练等步骤。

llm.c的代码非常简洁，主要使用C语言实现，编译和运行速度快，内存占用恒定，训练效率高。

Karpathy还比较了llm.c和PyTorch的实现，发现llm.c在内存占用和训练速度上都优于PyTorch。

最后，Karpathy提供了训练好的模型文件和日志文件，以及如何将模型转换为huggingface transformers GPT-2模型的方法。

原文和模型

【原文链接】 阅读原文 [ 3453字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # GPT-GPTs # 大模型 # 视频生成 # C语言实现 # GPT-2模型 # 模型转换 # 训练成本 # 高效训练

文章版权归作者所有，未经允许请勿转载。

网上关于DeepSeek的说法，哪些是错误的？

admin

1,341

端到端 VLA 并非唯一解：分层推理的具身基础模型 RoBridge 破解机器人「知行合一」难题

AI科技评论

1,010

自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言

机器之心

1,249

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

量子位

1,414

被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

AI科技评论

2,200

Karpathy新教程爆火，网友抢着送他H100：从头复现GPT-2训练

量子位

2,165

暂无评论

暂无评论...

五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

文章摘要

原文和模型

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

OpenAI难盈利！年收入34亿美金中55%来自ChatGPT+付费，API只占15%｜钛媒体AGI

相关文章

暂无评论

热门网址

热门文章

五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

文章摘要

原文和模型

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

OpenAI难盈利！年收入34亿美金中55%来自ChatGPT+付费，API只占15%｜钛媒体AGI

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章