我使用的Tesseract,但我不知道它是否忽略任何非文本区域,只针对文本。 我一定要删除任何非文本区域为更好的输出预处理步骤?
Answer 1:
正方体有着相当不错的算法来检测文本,但最终会产生假阳性匹配。
理想情况下,你会预先处理图像提交给正方体之前。 前一段时间我从事类似的任务,所以我建议你看一看以下材料:
OpenCV的C ++ /的OBJ-C:检测纸张/平方检测
执行CV :: warpPerspective为一组品种的假冒防倾斜::点
旋转CV ::垫使用CV :: warpAffine抵消目的地形象
仿射变换,简单的旋转和缩放或别的东西完全?
文章来源: Does Tesseract neglect any nontext area in a scanned document?