PDF表格提取(PDF table extraction)

2019-06-23 22:10发布

我有保存为GIF图像文件和PDF文件(相同)的数据,我想它解析为HTML或XML。 该数据实际上是我大学的食堂菜单。 这意味着,不存在具有每星期要分析该文件的新版本! 一般情况下,这些文件包含一些页眉和页脚文本,以及一个充满之间的其他数据表。 我已阅读计算器一些帖子,我也已经开始了一些尝试解析出表数据为HTML / XML:

PDF

  • PDFBox的|| iText的(JAVA)
  • 谷歌文档导入
  • PDF2HTML || PDF2Table

GIF

  • 正方体-OCR

我已经得到了最好的结果,从解析PDF文件与PDFBox的,但仍然(如菜单每周都有变化),这是不够可靠。 我接收HTML包括有时多,有时少“段落”( <p>所以,我不能够足够解析数据precice。

这就是为什么我想知道如果有其他的方式来做到这一点?

Answer 1:

塔布拉是JRuby的Web界面从任意的PDF文件中提取CSV / TSV表上一个非常良好的开端。



Answer 2:

我已经实现了我自己的算法(它的名字是traprange )在PDF文件中解析表格数据。

以下是一些样品PDF文件和结果:

  1. 输入文件: 采样次数1.pdf ,结果是: 样品1.HTML
  2. 输入文件: 样品4.pdf ,结果是: 样品4.html

在访问我的项目页面traprange

或者我在文章traprange



Answer 3:

如果你正在寻找从每周一次表中提取数据,并且你是在Windows的话,请检查包括自动表检测和表CSV,XML转换这个免费的PDF工具: PDF查看器实用程序 。

该实用程序是免费的,对于非开发商业和非商业用途(并没有谁想要通过API自动开发商单独的版本)。

声明:我ByteScout工作



Answer 4:

我已经尝试了许多的OCR和文本转换软件的,虽然我相信一旦应该写程序的自我转换PDF文本作为图像时更好地执行任务的人员理解。

我也尝试使用谷歌和许多其他在线(约900网站)和离线(约1000软件)产品由不同的公司。 如果你想提取文本从任何方法如PDF OCR或文本,那么最准确的方案,我发现是PDFTOHTML 。 准确率PDFTOHTML约为98%,谷歌网上有大约94%的准确性。 这是一个非常不错的软件,该软件还为您提供了文本的文本即粗体,斜体等格式正确。



Answer 5:

是在同一个地方的表每次? 如果你能找到每个盒子的dimentions,你可以使用一个工具将PDF拆分成多个文档,每个包含一个框,之后就可以用你想给每个较小的PDF转换为HTML(任何工具如在其他的答案中提到的工具)。 随机谷歌搜索拉升PyPdf ,它看起来像它可能有一些有用的功能。

如果你不能硬编码框的大小(或想申请的问题在不同格式的多个菜单),我明显的方法(我说的很明显,不容易),将边缘检测发现,其中表的边框会,然后申请我谈到之前的分裂。



Answer 6:

我最近遇到了类似的问题。

另一种解决方案,我发现是在Adobe打开一个PDF文档并将其导出到XML。 至少在我的PDF格式的保存它的表信息,然后我可以以编程方式使用XML工作产生如Excel等表格文件

另一个问题我遇到的是,只有的Adobe让您一次导出一个文件,我有很多的文件。 幸运的是,Adobe还具有合并功能。 我结束了合并的所有文件一起,然后把它们导出为一个大的XML文件,并与该文件的工作产生什么,我需要。



Answer 7:

您可以使用卡米洛特从您的PDF中提取表格并将其导出为HTML文件。 CSV,Excel和JSON也支持。 :您可以检查出的文档http://camelot-py.readthedocs.io 。 它提供了更精确的结果相对于其他开源表提取工具和库。 这里有一个比较 。

您可以使用下面的代码片段去期待与您的任务:

>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_html('file.html')

免责声明:我是库的作者。



Answer 8:

对于主要的模板塔布拉是开源的最佳选择,而ABBYY PDF编辑器是用于企业级的PDF数据提取和修改一个很好的解决方案。 ABBYY适用于OCR。

塔布拉有两个选项自动表检测与另一手动是通过提供坐标。



文章来源: PDF table extraction