大模型Scaling Law同样适用于下游任务性能？斯坦福、谷歌最新研究揭秘

AIGC动态1年前 (2024)发布 almosthuman2014

2,163 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k

作者信息

【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微信号】 almosthuman2014

大模型Scaling Law同样适用于下游任务性能？斯坦福、谷歌最新研究揭秘

文章摘要

【关键词】 Scaling Law、迁移学习、机器翻译、预训练、下游任务

本文探讨了大模型性能与训练数据规模、模型架构等设计要素之间的关系，即Scaling Law。研究者们主要关注了迁移学习中的Scaling Law，即预训练数据集大小与任务微调后下游任务性能之间的关系。实验聚焦于机器翻译任务，发现预训练数据与下游任务的一致性对性能有根本影响。研究者提出了适用于BLEU得分的Scaling Law，并探讨了交叉熵损失作为性能指标的局限性。实验结果表明，预训练对BLEU得分的改善在微调数据集足够大时几乎不再显著。最后，研究者给出了评估预训练数据集对下游任务价值的指南。

研究背景：Scaling Law在大模型开发中的重要性，以及其在迁移学习中的应用。

研究内容：斯坦福大学和谷歌的研究者探索了迁移学习中的Scaling Law，特别是在机器翻译任务中预训练数据集大小与下游任务性能的关系。

关键发现：预训练数据与下游任务的一致性对性能有决定性影响；提出了适用于BLEU得分的Scaling Law；交叉熵损失可能不是最佳的性能指标。

实验方法：在多语言无监督数据集上预训练大型语言模型（LLM），然后在多个机器翻译任务中微调。

实验结果：在分布一致的情况下，预训练数据的增加会单调提高BLEU得分和下游交叉熵；当分布不一致时，BLEU得分可能表现出非单调行为。

研究意义：为预训练数据集的选择提供了新的见解和指导，特别是在迁移学习场景中。

研究限制：研究主要关注机器翻译任务，可能需要进一步研究以验证Scaling Law在其他任务中的适用性。