PDFTextStripper stripper = new PDFTextStripper();
PDDocument document = PDDocument.load(inputStream);
String text = stripper.getText(document);
提取的文本: http://pastebin.com/BXFfMy0z
问题PDF: http://www.iwb.ch/media/Unternehmen/Dokumente/inserat_leiter_pm.pdf
我能做些什么来提取这个pdf文件正确的文本?
除了@ karthik27的回答:
ADOBE READER是在文本提取还算不错,因此,一般可以作为一个指标,从给定的文档文本提取是否是可能的。
因此,只要你有一个文件你自己的文字提取不能处理,在Reader中打开它,并尝试从中复制&粘贴。 如果在垃圾的结果,极有可能是不正确撰写文本提取任何错误或设计。
在您的文档的情况下,我得到的无形和特殊字符复制和像从Adobe阅读器粘贴半随机收集您PDFBox的那样 ,即垃圾。 最有可能的,因此,无异于是OCR将允许其文本提取。
我认为这个问题是编码。该PDF文本在不同的格式编码..如果你有良好的文档点击和点击文档属性..你可以找到的编码。 我想下面的链接会给你更多的解释
链接1
LINK2
原始文件应包含映射到Unicode。 这部分是不存在的,所以你必须得提取后破碎的文本。