如何知道如果一个PDF只包含图片或已被OCR扫描搜索？(How to know if a PDF c

我有一大堆的PDF文件，从扫描的文档来了。该文件包含图像和文本的混合。一些被扫描，没有OCR图像，所以每个PDF页面是一个大的图像，即使在整个页面完全是文字。其他与OCR扫描并包含图像和文本搜索的文本在那里存在。在许多情况下，图像，即使说完后，可搜索。

我想打一个自动化流程来识别文本中的所有使用OCR扫描的文件，与Acrobat 8专业版，但我不想再OCR是已经通过了在过去的OCR处理的文件。有谁知道是否有办法告诉哪些只包含图片，哪些已经包含搜索文本？

我计划在C＃或VB.NET这样做，但我不认为能够说出两种文件除了依赖于语言。

Answer 1:

Scannned图像转换为已OCR'ed善后使文本搜索也通常含有渲染为“看不见”的文本部分PDF。所以你在屏幕上看到（或打印时纸张）仍然是原始图像。但是，当你成功地搜索，你得到的命中突出显示了在不可见的文本。

我建议你看XPDF衍生命令行工具pdffonts(.exe) pdfinfo(.exe)和pdftotext(.exe) 看到这里下载： http://www.foolabs.com/xpdf/download.html

的示例用法pdffonts ：

C:\downloads\> pdffonts cisco-ip-phone-7911-guide6.1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique          Type 1C           yes yes no   13171  0
LGOKGM+Univers-Black                 Type 1C           yes yes no   13172  0
[....]

此PDF（在“EMB”列指示由“是”）使用的字体（在“名称”列中显示），已经他们的嵌入式和使用子集字体（在“子”栏由“是”表示）。

C:\downloads\> pdffonts examle1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique                 Type 1C           yes no  no   14    0
Arial                                TrueType          no  no  no   15    0

这PDF使用2种字体（在“名称”列中显示）。字体“宇宙-BlackOblique”完全嵌入（在“EMB”列由“是”表示，而“否”中的“子”列）。字体“宋体”也被使用，但不嵌入。

C:\downloads\> pdffonts examle2.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------

这PDF使用不是一个单一的字体，因此不具有任何嵌入文本（所以没有OCR其一）。

的示例用法pdftotext ：

C:\downloads\> pdftotext ^
                   -layout ^
                   cisco-ip-phone-7911-guide6.1.pdf ^
                   cisco-ip-phone-7911-guide6.1.txt

这将提取从PDF中的所有文本字符串（试图保留原来的布局有些类似）。如果在PDF没有文字，你会知道有没有OCR ...