标签:分词器

如何为预训练 LLM 添加新 token?

在预训练大模型(LLM)的微调过程中,添加新的 token 是提升模型在特定领域表现的关键步骤。这一操作不仅能够帮助模型更好地理解领域特定词汇,还能提高文本...

Karpathy新视频又火了:从头构建GPT Tokenizer

在技术领域,卡帕西离职OpenAI后,推出了新的教学视频,这次是关于构建GPT Tokenizer(分词器)的详细教程。视频时长2小时13分钟,内容丰富,涉及分词器的重...

Karpathy离职OpenAI,首发2小时AI大课!从头开始构建GPT分词器

新智元报道,前OpenAI技术专家Andrej Karpathy发布了一个关于构建GPT分词器的在线课程,引起了广泛关注。这个课程名为“从头构建GPT分词器”,时长两小时,旨在...