Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

AIGC动态1年前 (2024)发布 almosthuman2014

2,940 0 0

文章摘要

张天宇在其研究中提出了一种名为视觉字幕恢复（Visual Caption Restoration, VCR）的新任务，旨在探究视觉语言模型（Vision-Language Models, VLM）的推理能力，并与人类的认知水平进行比较。VCR任务要求模型根据部分可见的文字和图像上下文来补全被遮挡的文字，这一任务对模型的高级决策能力提出了挑战。

为了开发VCR任务，研究人员构建了一个数据生成流程，通过控制遮挡文字的白色矩形大小来改变文本的可见性，进而控制任务难度。基于维基百科的主图-介绍对，研究人员生成了VCR-wiki数据集，并为中文和英文设置了简单和困难两个难度级别。

人类在VCR任务上的表现相当出色，即使在困难难度下，中文的正确率也达到了96.63%。然而，现有模型在VCR任务上的表现远未达到人类水平。在中文简单难度上，即使是性能最佳的模型，准确率也远低于人类。在困难难度下，即使是最佳模型，准确率也仅为2.2%，而大多数模型的准确率接近0%。

此外，研究人员还对英文VCR-Wiki进行了测试。结果显示，模型在英文的简单和困难模式下的表现均优于中文，这可能与英文在预训练过程中的数据量和数据质量优势有关。在所测试的模型中，GPT-4o是闭源模型中效果最佳的，而CogVLM2是开源模型中表现最佳的。

VCR任务与视觉问答（Visual Question Answering, VQA）和光学字符识别（Optical Character Recognition, OCR）任务有所不同。VQA任务没有标准答案，评估模型回答的质量具有挑战性。而OCR任务主要关注从图像中提取文本，无需考虑图像上下文。相比之下，VCR任务要求模型利用图像和部分可见文字的上下文信息来补全被遮挡的文字，更能检验模型的推理能力。

总的来说，VCR任务为视觉语言模型的推理能力提供了一种新的评估方式，揭示了现有模型与人类认知水平之间的差距。通过进一步研究和改进，VCR任务有望推动视觉语言模型的发展，使其更接近人类的思考和推理方式。