离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千

作者信息


【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微 信 号】 almosthuman2014

离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千
 

文章摘要


【关 键 词】 AI大牛OpenAIminbpeLLM分词GitHub

文章标题:机器之心报道 – Andrej Karpathy 的新项目:minbpe

文章概述:本文主要介绍了 AI 大牛 Andrej Karpathy 在离开 OpenAI 后,并没有闲下来,而是开始了新的项目 minbpe。该项目致力于为 LLM 分词中常用的 BPE(Byte Pair Encoding, 字节对编码)算法创建最少、干净以及教育性的代码。文章详细介绍了 minbpe 项目的 GitHub 地址、项目内容以及 Karpathy 对项目的贡献。

主要内容:
1. Karpathy 在离开 OpenAI 后,并没有闲下来,而是开始了新的项目 minbpe。
2. minbpe 项目旨在为 LLM 分词中常用的 BPE 算法创建最少、干净以及教育性的代码。
3. minbpe 项目在 GitHub 上的标星已经达到 1.2 k。
4. Karpathy 的 minbpe 项目提供了两个 Tokenizer,可以实现分词器的 3 个主要功能:训练 tokenizer 词汇并合并给指定文本,从文本编码到 token,从 token 解码到文本。
5. minbpe 项目包括四个 Python 文件:base.py、basic.py、regex.py 和 gpt4.py,分别实现了 Tokenizer 类、BasicTokenizer、RegexTokenizer 和 GPT4Tokenizer。
6. Karpathy 表示,所有文件都非常短且注释详尽,并包含使用示例。
7. Karpathy 不满足只推出 GitHub 项目,他表示视频很快就会发布。

原文信息


【原文链接】 阅读原文
【原文字数】 1048
【阅读时长】 4分钟

© 版权声明

相关文章

暂无评论

暂无评论...