陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

AIGC动态3天前发布 QbitAI
104 0 0
陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

 

文章摘要


【关 键 词】 预训练MeCo元数据性能提升数据减少

陈丹琦团队提出了一种新的预训练方法,名为元数据调节然后冷却(MeCo),旨在提高大模型的性能并降低训练数据的需求。该方法通过在预训练阶段引入元数据,如文档URL的绝对域名,与文档拼接进行训练,仅计算文档标记的交叉熵损失,而不考虑模板或元数据中的标记。实验结果显示,MeCo在不同模型规模和训练数据来源下均能提升性能,且在减少33%数据使用的情况下,性能与240B标记的基线相当。

MeCo的主要贡献包括:1) 大幅加快预训练速度,使1.6B模型在少用33%训练数据的情况下达到与标准预训练模型相同的平均下游性能;2) 开启了引导语言模型的新方法,例如使用特定URL可以提高常识性任务性能,降低毒性生成的可能性;3) 证明了MeCo与不同类型的元数据兼容,即使没有URL,也能有效地整合不同类型的元数据。

论文作者来自普林斯顿NLP小组,包括博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。高天宇本科毕业于清华,是2019年清华特奖得主,目前是普林斯顿五年级博士生,研究领域包括自然语言处理和机器学习的交叉领域,特别关注大语言模型。Luxi He是普林斯顿计算机专业二年级博士生,研究重点是理解语言模型并改善其一致性和安全性。YiHe Dong目前在谷歌从事机器学习研究和工程工作,专注于结构化数据的表示学习、自动化特征工程和多模态表示学习。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1289字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...