GPT-4系列模型，在文档理解中的多维度评测

AIGC动态1年前 (2024)发布 AIGCOPEN

2,966 0 0

文章摘要

Snowflake的研究人员对OpenAI的GPT-4系列模型进行了深入研究，评估了其在文本生成、图像理解、文档摘要等方面的能力。通过在DocVQA、InfographicsVQA、SlideVQA和DUDE等多个数据集上进行多维度测试，研究人员发现GPT-4在执行文档解读任务时效果并不理想。这主要是因为文档理解不仅需要解析文本，还涉及到对文档布局、图片视觉内容的理解、推理和整合。

在对GPT-4 V进行测试时，研究人员发现其评测数据有明显改善。而当GPT-4 Turbo V结合第三方OCR（光学字符识别）视觉引擎，如Tesseract、Azure Cognitive、Amazon Textract等时，其视觉理解能力得到了显著提升。这表明OCR技术在增强模型对文档的视觉理解方面发挥了重要作用。

然而，研究人员在测试过程中也发现了数据污染的问题。在DocVQA和InfographicsVQA两个数据集上，GPT-4系列模型的表现可能并非完全基于对问题的真正理解，而是因为在预训练过程中接触过这些数据集，从而给出了看似正确的答案。这一现象表明，模型在这些数据集上的高得分可能并不代表其真正的理解能力，而只是对训练数据的一种记忆。

为了进一步探究这一问题，研究人员采用了“指导性指令”的技术，通过在模型的输入提示中加入特定的数据集名称，检查模型是否能够根据数据集的特定特征给出不同的答案。实验结果表明，在明确提及数据集名称的情况下，模型的性能有所提高，这可能意味着模型在训练时已经接触过这些数据集。此外，即使是使用不同的数据集名称进行误导性的指导，也可能会改变模型的输出，进一步证实了模型的输出受到了预训练数据的影响。

在文档理解任务中，OCR技术的应用使得GPT-4 Turbo V在SlideVQA和DUDE数据集上的表现达到了最先进的水平。这是因为OCR能够将图像中的文本内容转换为机器可读的格式，从而使模型能够直接处理文本信息。然而，不同的OCR技术在不同的测试数据集上的表现也各不相同，这表明在实际应用中，开发者可以根据应用场景来选择不同的OCR技术进行搭配使用。

总的来说，这项研究揭示了GPT-4系列模型在文档理解任务中的局限性，同时也突显了OCR技术在提升模型视觉理解能力方面的重要作用。同时，数据污染问题的出现也提醒了研究人员和开发者在模型训练和评估过程中需要更加谨慎，以确保模型的真正理解能力得到准确评估。