作者信息
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
【微 信 号】 AI_era
文章摘要
【关 键 词】 AI课程、GPT分词器、Karpathy、视频教程、字符级分词
新智元报道了AI大神Karpathy的新课程「从头开始构建GPT分词器」的文字版。这门课程已经在网络上获得了15万次的播放量,被网友们认为相当于大学四年的课程含金量。现在,Karpathy打算将这段2小时13分钟的课程转化为书籍章节或博客文章的形式,专门讨论「分词」。
为了实现这个目标,Karpathy提出了一个工作流程,其中包括为视频添加字幕或解说文字,将视频切割成若干带有配套图片和文字的段落,利用大语言模型的提示工程技术逐段进行翻译,并将结果输出为网页形式,其中包含指向原始视频各部分的链接。
Karpathy在GitHub项目minbpe下提供了一个例子来阐述这个想法。他表示,这是一个手动完成的任务,即观看视频并将其翻译成markdown格式的文章。他认为如果能自动完成这样的工作就太好了。
在接下来的课程中,Karpathy详细讨论了LLM中的「分词」问题。他指出,尽管分词是LLM中最复杂和棘手的部分之一,但我们需要对其有深入了解,因为许多LLM的缺陷可能都源于分词。
Karpathy还介绍了字符级分词的概念,以及如何使用BPE算法进行「字符块」分词。他强调了分词在LLM中的重要性,并提供了一些例子来说明分词在解决LLM问题中的作用。
最后,Karpathy展示了一个名为”tiktokenizer”的分词WebApp,这个应用程序可以在网络浏览器中实时运行,让用户轻松地在输入端输入一些文本字符串,并在右侧看到分词结果。这个应用程序可以帮助用户更好地理解分词的过程和原理。
原文信息
【原文链接】 阅读原文
【原文字数】 2334
【阅读时长】 8分钟