文章摘要
【关 键 词】 预训练、MeCo、元数据、性能提升、数据减少
陈丹琦团队提出了一种新的预训练方法,名为元数据调节然后冷却(MeCo),旨在提高大模型的性能并降低训练数据的需求。该方法通过在预训练阶段引入元数据,如文档URL的绝对域名,与文档拼接进行训练,仅计算文档标记的交叉熵损失,而不考虑模板或元数据中的标记。实验结果显示,MeCo在不同模型规模和训练数据来源下均能提升性能,且在减少33%数据使用的情况下,性能与240B标记的基线相当。
MeCo的主要贡献包括:1) 大幅加快预训练速度,使1.6B模型在少用33%训练数据的情况下达到与标准预训练模型相同的平均下游性能;2) 开启了引导语言模型的新方法,例如使用特定URL可以提高常识性任务性能,降低毒性生成的可能性;3) 证明了MeCo与不同类型的元数据兼容,即使没有URL,也能有效地整合不同类型的元数据。
论文作者来自普林斯顿NLP小组,包括博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。高天宇本科毕业于清华,是2019年清华特奖得主,目前是普林斯顿五年级博士生,研究领域包括自然语言处理和机器学习的交叉领域,特别关注大语言模型。Luxi He是普林斯顿计算机专业二年级博士生,研究重点是理解语言模型并改善其一致性和安全性。YiHe Dong目前在谷歌从事机器学习研究和工程工作,专注于结构化数据的表示学习、自动化特征工程和多模态表示学习。
原文和模型
【原文链接】 阅读原文 [ 1289字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...