我的做实习有朋友问我1小时前,如果我能帮助他避免做人工462 PDF文件使用免费在线软为.xls。
我想用一个shell脚本的unoconv
,但我没有找到如何正确地使用它,我不知道,如果unoconv
,因为它主要是文件转换为PDF,而不是相反的事情就可以解决这个问题。
我的做实习有朋友问我1小时前,如果我能帮助他避免做人工462 PDF文件使用免费在线软为.xls。
我想用一个shell脚本的unoconv
,但我没有找到如何正确地使用它,我不知道,如果unoconv
,因为它主要是文件转换为PDF,而不是相反的事情就可以解决这个问题。
从PDF到任何其他结构化格式的转换并不总是可能的,一般不建议使用。
话说回来,这看起来像一个一次性的工作,他们他们(462)公平一些。
这是值得追求的,如果你能可靠地提取从大部分的文字,它的结构合理。 这是试图在整个PDF的样品拿到常规文本输出的问题是,你可以可靠地解析为一个表结构。
有大量的周围的目标直接或OCR文本提取工具,只是谷歌左右。
我喜欢的是从ghostscript的套件pstotext; 该-bboxes
选项让我得到每个单词的坐标并让它由我来重新组装结构。 尽管它的名字它并输入PDF文件的工作。 缺点是,它可以是一个有点古怪,并适用于某些PDF文件而不是其他。
那么最有可能的,如果你走这么远,你则需要写一个shell脚本或程序将其转换成一个CSV。 您可以通过展开表直接打开这个或找工具来转换成XLS这一点。
PS如果他有没有准备好,让实习生询问是否有这是用来创建PDF文件这将节省大量的时间和精力,并导致一种方式更准确的结果,在原始数据得到的任何可能的方式。
更新到另一种pstotext
是renderpdf.pl
它包括在Perl的命令CAM :: PDF模块。 更强大,但只是报告文本(X,Y)的位置,而不是边界框。