终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

 

文章摘要


【关 键 词】 机器学习模型评估数据污染过拟合基准测试

背景介绍:
大型语言模型的推理能力提升是当前研究的重要方向。

问题提出:
许多研究使用GSM8k、MATH等测试集作为基准,但这些测试集可能受到训练数据集的污染,导致模型推理能力被错误评估。

研究方法和发现:
研究者发现许多模型受到基准数据的污染,尤其是Mistral和Phi模型系列显示出过拟合的一致证据。
在GSM1k上的测试结果显示,表现最差的模型性能比GSM8k低13%。

评估结果分析:
模型在GSM8k上的表现与在GSM1k上的表现差距存在正相关关系,表明过拟合的主要原因是模型部分背出了GSM8k中的样本。

GSM1k数据集:
GSM1k包含1250道小学数学题,由人工注释者根据GSM8k样本问题提出难度相似的新问题构建。

评估方法和模型选择:
研究者使用EleutherAI的LM Evaluation Harness进行评估,所有模型在温度为0时进行评估以保证可重复性。

结论:
一些模型系列,如Phi和Mistral,显示出系统性过拟合。
其他模型,尤其是前沿模型,没有表现出过拟合的迹象。
过拟合的模型仍然具有推理能力,能够解决新问题。

未来展望:
Scale AI承诺在满足一定条件后发布GSM1k数据集,并计划定期评估所有主要的开源和闭源LLM。

原文和模型


【原文链接】 阅读原文 [ 3836字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...