字节跳动、中科院开源多模态数据集—WebMath-40B

AIGC动态2个月前发布 AIGCOPEN
642 0 0
字节跳动、中科院开源多模态数据集—WebMath-40B

 

文章摘要


【关 键 词】 多模态数据图文推理数据集InfiMM模型性能质量评估

字节跳动和中国科学院的研究人员联合发布了超大多模态数据集InfiMM-WebMath-40B,旨在推动多模态大模型的发展。该数据集从Common-Crawl中筛选提炼而成,包含2400万个网页、8500万个关联图片URL以及400亿个文本标记,有助于提升模型的图文混合推理能力。研究人员采用关键词匹配方法,保留提及数学、公式等特定词汇的页面,并设置阈值条件,如文档中至少包含一定数量的LaTeX符号,以缩小数据范围。使用Trafilatura库抓取网页内容,提取纯文本部分和与数学内容相关的图像。为提高数据质量,实施严格的去重、清洗策略,使用MinHash等模糊哈希技术识别和合并相似或重复的文档,减少冗余。同时采用基于规则的过滤方法,去除无关内容和格式错误的文档。引入数据标注环节,利用大语言模型评估每个文档的数学质量,通过特定提示格式为文档打分,筛选出高质量的数学内容。在纯文本测试中,WebMath-40B数据集显著提高了1.3B模型的性能,GSM8K准确率从4.8%提升至26.1%,MMLU得分从25.6%提高至35.6%。在多模态测试中,WebMath-40B训练的模型在MathVerse和We-Math基准上取得了新的最佳成绩,1.3B模型在MathVerse得分提高了4.9分,7B模型提高了5.3分。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1034字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...