文章摘要
【关 键 词】 多模态数据、图文推理、数据集InfiMM、模型性能、质量评估
字节跳动和中国科学院的研究人员联合发布了超大多模态数据集InfiMM-WebMath-40B,旨在推动多模态大模型的发展。该数据集从Common-Crawl中筛选提炼而成,包含2400万个网页、8500万个关联图片URL以及400亿个文本标记,有助于提升模型的图文混合推理能力。研究人员采用关键词匹配方法,保留提及数学、公式等特定词汇的页面,并设置阈值条件,如文档中至少包含一定数量的LaTeX符号,以缩小数据范围。使用Trafilatura库抓取网页内容,提取纯文本部分和与数学内容相关的图像。为提高数据质量,实施严格的去重、清洗策略,使用MinHash等模糊哈希技术识别和合并相似或重复的文档,减少冗余。同时采用基于规则的过滤方法,去除无关内容和格式错误的文档。引入数据标注环节,利用大语言模型评估每个文档的数学质量,通过特定提示格式为文档打分,筛选出高质量的数学内容。在纯文本测试中,WebMath-40B数据集显著提高了1.3B模型的性能,GSM8K准确率从4.8%提升至26.1%,MMLU得分从25.6%提高至35.6%。在多模态测试中,WebMath-40B训练的模型在MathVerse和We-Math基准上取得了新的最佳成绩,1.3B模型在MathVerse得分提高了4.9分,7B模型提高了5.3分。
原文和模型
【原文链接】 阅读原文 [ 1034字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...