大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘
模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
作者信息
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微 信 号】 almosthuman2014
文章摘要
【关 键 词】 Scaling Law、迁移学习、机器翻译、预训练、下游任务
本文探讨了大模型性能与训练数据规模、模型架构等设计要素之间的关系,即Scaling Law。研究者们主要关注了迁移学习中的Scaling Law,即预训练数据集大小与任务微调后下游任务性能之间的关系。实验聚焦于机器翻译任务,发现预训练数据与下游任务的一致性对性能有根本影响。研究者提出了适用于BLEU得分的Scaling Law,并探讨了交叉熵损失作为性能指标的局限性。实验结果表明,预训练对BLEU得分的改善在微调数据集足够大时几乎不再显著。最后,研究者给出了评估预训练数据集对下游任务价值的指南。
研究背景:Scaling Law在大模型开发中的重要性,以及其在迁移学习中的应用。
研究内容:斯坦福大学和谷歌的研究者探索了迁移学习中的Scaling Law,特别是在机器翻译任务中预训练数据集大小与下游任务性能的关系。
关键发现:预训练数据与下游任务的一致性对性能有决定性影响;提出了适用于BLEU得分的Scaling Law;交叉熵损失可能不是最佳的性能指标。
实验方法:在多语言无监督数据集上预训练大型语言模型(LLM),然后在多个机器翻译任务中微调。
实验结果:在分布一致的情况下,预训练数据的增加会单调提高BLEU得分和下游交叉熵;当分布不一致时,BLEU得分可能表现出非单调行为。
研究意义:为预训练数据集的选择提供了新的见解和指导,特别是在迁移学习场景中。
研究限制:研究主要关注机器翻译任务,可能需要进一步研究以验证Scaling Law在其他任务中的适用性。
原文信息
【原文链接】 阅读原文
【原文字数】 3824
【阅读时长】 13分钟