我很在就这个问题丢失。 我看过几乎每一篇关于它在这里的话,我将非常感激,如果有人会轻推我在正确的方向。
我有一个PDF,我想提取它的文本,我只是在口头上和空间的兴趣。 我已经建立了CGPDFScanner和它的回调方法。 我读的是,我只需要考虑4个运营商TJ,TJ,QOUT(')和doubleqout(“)尽可能提取文本去。
我想我还需要跟踪文本空间,以便能够确定字母是否应该被放在一起形成一个单词或应该用一个空格隔开。 但我不知道我怎么会做这个。
在PDF,所有文本格式为
[(X)-24.2524(X)-24.2524(X)-24.2524(Y)-24.2524(Y)-24.2524]TJ
但我一直没能找出(使用PDF规范)这些数字的含义。 在SO有人说,你不应该害怕的PDF规范的,但坦率地说,我不觉得他们很容易阅读/理解。
我研究PDFKitten码这是有帮助的。
任何帮助将不胜感激。