IBM开源新模型，可完美、快速转换PDF文档格式

2,763 0 0

文章摘要

【关键词】 PDF转换、AIGC、Docling模型、OCR技术、文档处理

在AIGC领域，PDF文档的转换一直是一个技术挑战，因为PDF文件在格式、标准化和结构上存在显著差异。IBM的研究人员开发了Docling模型，这是一个基于PDF解析器、大型语言模型（LLM）和OCR技术的解决方案，能够将PDF文档转换为JSON和Markdown格式，同时保留全部格式。

Docling模型采用模块化设计，将PDF文档处理流程分解为多个步骤，每个步骤由专门的模块执行，提高了执行效率和准确率，并增强了模型的扩展性和灵活性。PDF后端在Docling架构中起着核心作用，负责将PDF文档解析为机器可读的格式，包括提取文本内容、页面上的几何坐标和渲染位图图像。

为了应对PDF文档的多样性和复杂性，Docling提供了多种PDF后端选项，包括基于qpdf库的自定义PDF解析器和基于pypdfium的PDF后端。在初步解析后，Docling的布局分析模型和表格结构识别模型对数据进行进一步处理。布局分析模型基于RT-DETR架构，通过在DocLayNet数据集上进行再训练，能够准确预测页面图像上各种元素的边界框和类别。表格结构识别模型TableFormer则用于识别表格结构，预测逻辑行和列结构，并确定表格单元的归属。

Docling还提供了可选的OCR支持，通过集成EasyOCR库，能够识别和转写图像中的文字，扩展了其在文档处理方面的应用范围。

研究人员使用arXiv的3篇论文和两本IBM书籍共225页构建了一个测试数据集，以评估Docling的转换效率。在苹果M3 Max笔记本和英特尔Xeon E5 – 2690平台上，使用两种PDF后端和不同的线程预算进行了测试。结果显示，Docling能够快速且准确地将PDF文档转换为JSON和Markdown格式，理解页面布局、阅读顺序，定位图表并恢复表格结构。在4线程配置下，每秒可处理2.18页，峰值内存使用为6.20GB；在16线程配置下，每秒处理1.27页，处理时间为177秒。

总的来说，Docling模型展示了在处理PDF文档转换方面的高效性和准确性，为AIGC领域的开发者提供了一个强大的工具。