我的工作中,我要开发的OCR算法的一个项目(我要读从图像文本,然后将其转换为不同的语言)。所以,我的首要任务是让从图像文本。
步骤来完成的第一个任务。
- 从加载给定的源的任何图像格式(BMP,JPG,PNG)。 然后将图像转换为灰度,并使用阈值(Otsu算法)二进制化它。 //完成(如何删除从输出的图像噪声???)
结果
检测图像功能,如分辨率和翻转。 这样我们终于可以将其转换为用于进一步处理的图像拉直。 (已完成图像的旋转代码,但无法检测这是我们必须要旋转图片图片角度,对角检测部分静得工作)
线检测和删除。 这一步是需要改进的页面布局分析,以达到更好的识别质量下划线的文本,以检测表等(决定完成在结束的那部分)
页面布局分析。 在这一步中,我试图找出存在于图像中的文本区域。 因此,只有用于识别和该地区的其余那部分被排除在外。
文本行和单词检测。 在这里我们也需要采取不同的字体大小和字之间的小空间的照顾。
字符识别。 这是OCR的主算法; 每个字符的图像必须被转换成相应的字符码。 有时,这种算法产生了不确定的图像几个字符代码。 例如,识别的图像的“我”字能产生“I”,“|” “1”,“L”的代码,最终字符代码将在后面选择。
保存结果到选择的输出格式,例如,可搜索的PDF,DOC,RTF,TXT。 列,字体,颜色,图片,背景等:它保存原来的页面布局是非常重要的。
所以,我需要帮助part6.I已完成线检测部(得到n个含有n行的一段图像),但卡在接下来的部分越来越recognisation.If你的话和性格了解有关OCR和字符确定方法①部分良好的联系,然后请留言这里。
对于字符确定方法①我想用asprise(Java库) http://asprise.com/product/ocr/index.php?lang=java