标签:语料库
微软、上海交通等发布首届数据污染报告,开闭源模型皆被污染
随着大语言模型(LLM)如GPT-4和o1的出现,生成式AI产品数量激增,但数据污染问题对模型的准确性和可靠性构成挑战。数据污染指评估数据无意中包含在预训练数...
知乎AI革命:智能搜索与实时问答的融合
在生成式人工智能(Generative AI)的背景下,知乎的角色和未来发展可以从三个视角进行观察。首先,知乎是大语言模型预训练中文语料的重要来源,例如聊天应用...