字节跳动、中科院开源多模态数据集—WebMath-40B

AIGC动态1年前 (2024)发布 AIGCOPEN

3,476 0 0

文章摘要

【关键词】 多模态数据、图文推理、数据集InfiMM、模型性能、质量评估

字节跳动和中国科学院的研究人员联合发布了超大多模态数据集InfiMM-WebMath-40B，旨在推动多模态大模型的发展。该数据集从Common-Crawl中筛选提炼而成，包含2400万个网页、8500万个关联图片URL以及400亿个文本标记，有助于提升模型的图文混合推理能力。研究人员采用关键词匹配方法，保留提及数学、公式等特定词汇的页面，并设置阈值条件，如文档中至少包含一定数量的LaTeX符号，以缩小数据范围。使用Trafilatura库抓取网页内容，提取纯文本部分和与数学内容相关的图像。为提高数据质量，实施严格的去重、清洗策略，使用MinHash等模糊哈希技术识别和合并相似或重复的文档，减少冗余。同时采用基于规则的过滤方法，去除无关内容和格式错误的文档。引入数据标注环节，利用大语言模型评估每个文档的数学质量，通过特定提示格式为文档打分，筛选出高质量的数学内容。在纯文本测试中，WebMath-40B数据集显著提高了1.3B模型的性能，GSM8K准确率从4.8%提升至26.1%，MMLU得分从25.6%提高至35.6%。在多模态测试中，WebMath-40B训练的模型在MathVerse和We-Math基准上取得了新的最佳成绩，1.3B模型在MathVerse得分提高了4.9分，7B模型提高了5.3分。