转换pdf文件到Excel（.xls的）(Converting .pdf files to exce

我的做实习有朋友问我1小时前，如果我能帮助他避免做人工462 PDF文件使用免费在线软为.xls。

我想用一个shell脚本的unoconv ，但我没有找到如何正确地使用它，我不知道，如果unoconv ，因为它主要是文件转换为PDF，而不是相反的事情就可以解决这个问题。

从PDF到任何其他结构化格式的转换并不总是可能的，一般不建议使用。

话说回来，这看起来像一个一次性的工作，他们他们（462）公平一些。

这是值得追求的，如果你能可靠地提取从大部分的文字，它的结构合理。这是试图在整个PDF的样品拿到常规文本输出的问题是，你可以可靠地解析为一个表结构。

有大量的周围的目标直接或OCR文本提取工具，只是谷歌左右。

我喜欢的是从ghostscript的套件pstotext; 该-bboxes选项让我得到每个单词的坐标并让它由我来重新组装结构。尽管它的名字它并输入PDF文件的工作。缺点是，它可以是一个有点古怪，并适用于某些PDF文件而不是其他。

那么最有可能的，如果你走这么远，你则需要写一个shell脚本或程序将其转换成一个CSV。您可以通过展开表直接打开这个或找工具来转换成XLS这一点。

PS如果他有没有准备好，让实习生询问是否有这是用来创建PDF文件这将节省大量的时间和精力，并导致一种方式更准确的结果，在原始数据得到的任何可能的方式。

更新到另一种pstotext是renderpdf.pl它包括在Perl的命令CAM :: PDF模块。更强大，但只是报告文本（X，Y）的位置，而不是边界框。

Answer 1: