PDFBOX文本提取工作不正常(PdfBox text extraction not working

2019-10-19 00:17发布

PDFTextStripper stripper = new PDFTextStripper();
PDDocument document = PDDocument.load(inputStream);
String text = stripper.getText(document);

提取的文本： http://pastebin.com/BXFfMy0z

问题PDF： http://www.iwb.ch/media/Unternehmen/Dokumente/inserat_leiter_pm.pdf

我能做些什么来提取这个pdf文件正确的文本？

Answer 1:

除了@ karthik27的回答：

ADOBE READER是在文本提取还算不错，因此，一般可以作为一个指标，从给定的文档文本提取是否是可能的。

因此，只要你有一个文件你自己的文字提取不能处理，在Reader中打开它，并尝试从中复制＆粘贴。如果在垃圾的结果，极有可能是不正确撰写文本提取任何错误或设计。

在您的文档的情况下，我得到的无形和特殊字符复制和像从Adobe阅读器粘贴半随机收集您PDFBox的那样，即垃圾。最有可能的，因此，无异于是OCR将允许其文本提取。

我认为这个问题是编码。该PDF文本在不同的格式编码..如果你有良好的文档点击和点击文档属性..你可以找到的编码。我想下面的链接会给你更多的解释

链接1
LINK2

原始文件应包含映射到Unicode。这部分是不存在的，所以你必须得提取后破碎的文本。

文章来源: PdfBox text extraction not working properly