禁用词典中的Tesseract(Disable dictionary in Tesseract)

2019-07-18 07:32发布

我怎么能对英语语言运行时的Tesseract禁用词典修正?

我目前正在运行的Tesseract作为一个子进程。

Answer 1:

尝试设置这些变量(把它们放在一个配置文件)设置为false:

load_system_dawg 
load_freq_dawg
load_punc_dawg
load_number_dawg
load_unambig_dawg
load_bigram_dawg
load_fixed_length_dawgs

https://groups.google.com/forum/?fromgroups=#!searchin/tesseract-ocr/Disable$20dictionary$20​​in$20Tesseract/tesseract-ocr/5nvIo1DJxHE/f3gBi2pTKykJ

另请阅读如何提高/词典的实力的信任? 在FAQ。 从中:

对于的tesseract-OCR <3.01尝试正在增加NON_WERD和GARBAGE_STRING在字典/ permute.cpp到也许3或甚至5。

对于正方体-OCR> = 3.01尝试增加变量language_model_penalty_non_freq_dict_wordlanguage_model_penalty_non_dict_word在配置文件中。 默认情况下,它们分别是0.1和0.15。



文章来源: Disable dictionary in Tesseract