IBM开源新模型,可完美、快速转换PDF文档格式

AIGC动态3个月前发布 AIGCOPEN
872 0 0
IBM开源新模型,可完美、快速转换PDF文档格式

 

文章摘要


【关 键 词】 PDF转换AIGCDocling模型OCR技术文档处理

AIGC领域,PDF文档的转换一直是一个技术挑战,因为PDF文件在格式、标准化和结构上存在显著差异。IBM的研究人员开发了Docling模型,这是一个基于PDF解析器、大型语言模型(LLM)和OCR技术的解决方案,能够将PDF文档转换为JSON和Markdown格式,同时保留全部格式。

Docling模型采用模块化设计,将PDF文档处理流程分解为多个步骤,每个步骤由专门的模块执行,提高了执行效率和准确率,并增强了模型的扩展性和灵活性。PDF后端在Docling架构中起着核心作用,负责将PDF文档解析为机器可读的格式,包括提取文本内容、页面上的几何坐标和渲染位图图像。

为了应对PDF文档的多样性和复杂性,Docling提供了多种PDF后端选项,包括基于qpdf库的自定义PDF解析器和基于pypdfium的PDF后端。在初步解析后,Docling的布局分析模型和表格结构识别模型对数据进行进一步处理。布局分析模型基于RT-DETR架构,通过在DocLayNet数据集上进行再训练,能够准确预测页面图像上各种元素的边界框和类别。表格结构识别模型TableFormer则用于识别表格结构,预测逻辑行和列结构,并确定表格单元的归属。

Docling还提供了可选的OCR支持,通过集成EasyOCR库,能够识别和转写图像中的文字,扩展了其在文档处理方面的应用范围。

研究人员使用arXiv的3篇论文和两本IBM书籍共225页构建了一个测试数据集,以评估Docling的转换效率。在苹果M3 Max笔记本和英特尔Xeon E5 – 2690平台上,使用两种PDF后端和不同的线程预算进行了测试。结果显示,Docling能够快速且准确地将PDF文档转换为JSON和Markdown格式,理解页面布局、阅读顺序,定位图表并恢复表格结构。在4线程配置下,每秒可处理2.18页,峰值内存使用为6.20GB;在16线程配置下,每秒处理1.27页,处理时间为177秒。

总的来说,Docling模型展示了在处理PDF文档转换方面的高效性和准确性,为AIGC领域的开发者提供了一个强大的工具。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 969字 | 4分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...