标签:数据污染

Nature 重磅论文:用 AI 生成的数据训练 AI,会让大模型崩溃

最新研究揭示了使用人工智能(AI)生成的数据训练AI模型可能带来的风险。研究发现,如果AI模型使用自动生成的数据进行自我训练,可能会导致模型崩溃,即模型...

GPT-4系列模型,在文档理解中的多维度评测

Snowflake的研究人员对OpenAI的GPT-4系列模型进行了深入研究,评估了其在文本生成、图像理解、文档摘要等方面的能力。通过在DocVQA、InfographicsVQA、SlideV...

终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

背景介绍:- 大型语言模型的推理能力提升是当前研究的重要方向。问题提出:- 许多研究使用GSM8k、MATH等测试集作为基准,但这些测试集可能受到训练数据集的污...