陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

1,615 0 0

文章摘要

陈丹琦团队提出了一种新的预训练方法，名为元数据调节然后冷却（MeCo），旨在提高大模型的性能并降低训练数据的需求。该方法通过在预训练阶段引入元数据，如文档URL的绝对域名，与文档拼接进行训练，仅计算文档标记的交叉熵损失，而不考虑模板或元数据中的标记。实验结果显示，MeCo在不同模型规模和训练数据来源下均能提升性能，且在减少33%数据使用的情况下，性能与240B标记的基线相当。

MeCo的主要贡献包括：1) 大幅加快预训练速度，使1.6B模型在少用33%训练数据的情况下达到与标准预训练模型相同的平均下游性能；2) 开启了引导语言模型的新方法，例如使用特定URL可以提高常识性任务性能，降低毒性生成的可能性；3) 证明了MeCo与不同类型的元数据兼容，即使没有URL，也能有效地整合不同类型的元数据。

论文作者来自普林斯顿NLP小组，包括博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。高天宇本科毕业于清华，是2019年清华特奖得主，目前是普林斯顿五年级博士生，研究领域包括自然语言处理和机器学习的交叉领域，特别关注大语言模型。Luxi He是普林斯顿计算机专业二年级博士生，研究重点是理解语言模型并改善其一致性和安全性。YiHe Dong目前在谷歌从事机器学习研究和工程工作，专注于结构化数据的表示学习、自动化特征工程和多模态表示学习。