是否忽视的Tesseract扫描的文档中的任何非文本区域?(Does Tesseract negle

2019-07-29 00:36发布

我使用的Tesseract,但我不知道它是否忽略任何非文本区域,只针对文本。 我一定要删除任何非文本区域为更好的输出预处理步骤?

Answer 1:

正方体有着相当不错的算法来检测文本,但最终会产生假阳性匹配。

理想情况下,你会预先处理图像提交给正方体之前。 前一段时间我从事类似的任务,所以我建议你看一看以下材料:

  • OpenCV的C ++ /的OBJ-C:检测纸张/平方检测

  • 执行CV :: warpPerspective为一组品种的假冒防倾斜::点

  • 旋转CV ::垫使用CV :: warpAffine抵消目的地形象

  • 仿射变换,简单的旋转和缩放或别的东西完全?



文章来源: Does Tesseract neglect any nontext area in a scanned document?