Karpathy新视频又火了:从头构建GPT Tokenizer

AIGC动态10个月前发布 QbitAI
1,185 0 0

作者信息


【原文作者】 量子位
【作者简介】 追踪人工智能新趋势,关注科技行业新突破
【微 信 号】 QbitAI

Karpathy新视频又火了:从头构建GPT Tokenizer
 

文章摘要


【关 键 词】 技术卡帕西分词器BPEGPT

技术领域,卡帕西离职OpenAI后,推出了新的教学视频,这次是关于构建GPT Tokenizer(分词器)的详细教程。

视频时长2小时13分钟,内容丰富,涉及分词器的重要性、BPE算法的原理和应用,以及如何从头构建一个分词器。

卡帕西强调了分词器在大语言模型中的作用,以及它对模型性能的影响。

他还提到了分词器在处理非英语语言、特殊字符和长字符串时可能遇到的问题,并表达了希望未来能够直接将字节流输入到语言模型中的愿望。

视频提供了详细的Python实现步骤,以及如何处理特殊字符和不同语言的字符。

此外,卡帕西还提到了OpenAI官方提供的BPE分词器tiktoken的特点和GPT-4中的一些调整。

最后,文章还提到了量子位正在评选2024年值得关注的AIGC企业和产品,以及即将举行的中国AIGC产业峰会。

原文信息


【原文链接】 阅读原文
【原文字数】 1688
【阅读时长】 6分钟

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...