我一直在使用的Tesseract 3.0.2 OCR SDK图像文本提取。 但是,如果使用中国的文字图像并通过OCR然后正方体不提供我的中国字符,而不是说我得到的数字和英文字符。 但我需要中国的字符显示我使用的形象。
我怎样才能做到这一点? 有没有什么办法可以得到中国的字符,而不是任何其他字符?
我一直在使用的Tesseract 3.0.2 OCR SDK图像文本提取。 但是,如果使用中国的文字图像并通过OCR然后正方体不提供我的中国字符,而不是说我得到的数字和英文字符。 但我需要中国的字符显示我使用的形象。
我怎样才能做到这一点? 有没有什么办法可以得到中国的字符,而不是任何其他字符?
您需要下载中国训练有素的数据(它会像一个chi_sim.traineddata文件),并将其添加到您的tessdata文件夹。
要下载文件https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
并使用这样的
Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];
如果你有任何问题,你可以下载我的tessaract实验(与中国语言支持) https://github.com/aryansbtloe/ExperimentWithTesseract.git
我测试了这一个...希望你会发现这个有用。