如何提高从正方体的OCR文字的准确性?(How do I improve the accuracy

2019-06-26 00:11发布

我创建了一个基本的应用程序使用从谷歌API的Tesseract识别文本,然后用我的相机应用集成它。 它工作正常,但唯一的问题是精度,因为有时文本被认为是随机的字符集和我猜的精度约为50%。

此外,当试图扫描四个以上字的图像中,应用程序崩溃。

String ocrText = baseApi.getUTF8Text();
baseApi.end();

其中baseApi是超正方体API类的对象。

我是否需要使用不同的数据结构来保存识别的文本还是有为什么超过四个字没有得到认可其他原因?

Answer 1:

正方体API类提供了一个isValidWord方法来检查字符串是否是一个有效的字。 您可以使用此功能来检查所识别的字符。 这将提高输出的精度。

我使用Tess4j这是一个Java JNA包装器的Tesseract-OCR发展,它检查后给出了相当不错的成绩。

不准确的结果可能是由于文字的大小,检查这出。 它说:“准确度脱落以下10PT X 300dpi的,下面很快8PT X 300dpi的。”

此外,不能够检测到超过4个字取决于很多因素,什么样的(有多少功能)测试图像,图像的大小,平台等。



文章来源: How do I improve the accuracy of the OCR text from Tesseract?