MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

AIGC动态1年前 (2024)发布 AIera

2,979 0 0

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

文章摘要

新智元报道了多模态大型语言模型（MLLMs）在多学科多模态理解和推理（MMMU）基准测试中的最新进展。尽管这些模型在排行榜上的表现不断提升，但对其是否真正理解多样化主题或仅依赖统计模式的争议仍然存在。为了更严格地评估模型的多模态理解能力，MMMU团队推出了新的基准测试MMMU-Pro。

MMMU-Pro的构建过程包括三个步骤：首先，筛选掉纯文本模型可回答的问题，以确保模型必须依赖多模态信息；其次，将候选选项从四个增加到十个，减少模型猜测正确答案的概率；最后，引入纯视觉输入设置，要求模型处理图像中的问题，模拟现实世界的应用场景。实验结果显示，模型在MMMU-Pro上的性能明显下降，平均下降16.8%到26.9%，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略。

研究人员还探讨了光学字符识别（OCR）提示和思维链（Chain of Thought，简称CoT）推理的影响。结果显示，OCR提示对性能提升作用不大，而CoT提示通常可以提高模型的性能，但不同模型的提升幅度存在显著差异。

MMMU基准测试由1.15万个多模态问题组成，涵盖六个核心学科的30个主题和183个子领域。每个问题都是图文配对，包含图表、图解、地图和化学结构等30种不同的图像类型。MMMU已经成为多模态领域的标准评估工具。然而，社区反馈指出，MMMU存在文本依赖性和模型利用捷径的问题。因此，MMMU-Pro在构建时更加注重问题与图像之间的关联性，以及智能体是否真正理解问题的本质。

为了构建MMMU-Pro，研究人员首先删除了仅通过文本的大型语言模型（LLMs）就能回答的问题，然后从剩余问题中随机抽取1800个问题。接着，将问题的候选项从四个增加到十个，并筛选出70个问题。最后，引入纯视觉输入设置，将问题嵌入到屏幕截图或照片中，最终获得3460个问题。

在实验设置中，研究人员使用了包括闭源模型和开源模型在内的多种基线模型，并在三种不同的测试环境下对模型进行评估。总体结果显示，增加候选选项和纯视觉设置都显著降低了模型的性能，而CoT提示在某些情况下可以提高性能。这些发现表明，MMMU-Pro是一个更健壮的基准测试，能够更准确地评估模型在广泛的学科领域内的真正的多模态理解和推理能力。