标签:数据污染
微软、上海交通等发布首届数据污染报告,开闭源模型皆被污染
随着大语言模型(LLM)如GPT-4和o1的出现,生成式AI产品数量激增,但数据污染问题对模型的准确性和可靠性构成挑战。数据污染指评估数据无意中包含在预训练数...
Nature 重磅论文:用 AI 生成的数据训练 AI,会让大模型崩溃
最新研究揭示了使用人工智能(AI)生成的数据训练AI模型可能带来的风险。研究发现,如果AI模型使用自动生成的数据进行自我训练,可能会导致模型崩溃,即模型...
GPT-4系列模型,在文档理解中的多维度评测
Snowflake的研究人员对OpenAI的GPT-4系列模型进行了深入研究,评估了其在文本生成、图像理解、文档摘要等方面的能力。通过在DocVQA、InfographicsVQA、SlideV...
终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名
背景介绍:- 大型语言模型的推理能力提升是当前研究的重要方向。问题提出:- 许多研究使用GSM8k、MATH等测试集作为基准,但这些测试集可能受到训练数据集的污...