标签:开放数据

Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集

Hugging Face 正式发布全球最大的纯 PDF 公开语料库 FinePDFs,为开放训练数据集带来新突破。该数据集涵盖 1733 种语言的 4.75 亿份文档,约 3 万亿个 Token...