转换pdf文件到Excel(.xls的)(Converting .pdf files to exce

2019-10-17 12:19发布

我的做实习有朋友问我1小时前,如果我能帮助他避免做人工462 PDF文件使用免费在线软为.xls。

我想用一个shell脚本的unoconv ,但我没有找到如何正确地使用它,我不知道,如果unoconv ,因为它主要是文件转换为PDF,而不是相反的事情就可以解决这个问题。

Answer 1:

从PDF到任何其他结构化格式的转换并不总是可能的,一般不建议使用。

话说回来,这看起来像一个一次性的工作,他们他们(462)公平一些。

这是值得追求的,如果你能可靠地提取从大部分的文字,它的结构合理。 这是试图在整个PDF的样品拿到常规文本输出的问题是,你可以可靠地解析为一个表结构。

有大量的周围的目标直接或OCR文本提取工具,只是谷歌左右。

我喜欢的是从ghostscript的套件pstotext; 该-bboxes选项让我得到每个单词的坐标并让它由我来重新组装结构。 尽管它的名字它并输入PDF文件的工作。 缺点是,它可以是一个有点古怪,并适用于某些PDF文件而不是其他。

那么最有可能的,如果你走这么远,你则需要写一个shell脚本或程序将其转换成一个CSV。 您可以通过展开表直接打开这个或找工具来转换成XLS这一点。

PS如果他有没有准备好,让实习生询问是否有这是用来创建PDF文件这将节省大量的时间和精力,并导致一种方式更准确的结果,在原始数据得到的任何可能的方式。

更新到另一种pstotextrenderpdf.pl它包括在Perl的命令CAM :: PDF模块。 更强大,但只是报告文本(X,Y)的位置,而不是边界框。



文章来源: Converting .pdf files to excel (.xls)