标签:过拟合

终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

背景介绍:- 大型语言模型的推理能力提升是当前研究的重要方向。问题提出:- 许多研究使用GSM8k、MATH等测试集作为基准,但这些测试集可能受到训练数据集的污...

上下文长度越卷越离谱,我们真需要这么多token么?

摘要总结:去年,通义舞王在科目三的火爆出圈中成为了顶流,引发了对通义千问的广泛关注。文章首先介绍了大模型中的一个关键概念——上下文窗口,它决定了模型...