情节的数字化 - 从图中的图像刮样本值(Plot digitization - scraping s

2019-09-03 13:43发布

这不是真正的“OCR”,因为它不能识别的字符,但它应用到曲线同样的想法。 任何人都知道的图像处理库或从(光栅)情节图像检索值确定算法? 例如,在该图中,这是很难,我用我的眼睛看的精确值,因为有网格线之间的这种差距:

我可以用直尺或什么,但它仍然会是容易出错。 如果有软件,可能只是采取任何旧图的截图,并自动将其转换成数值表,或可以进行查询的功能,这将是巨大的。

好像是叫“曲线承认”? 也可用于从这些基础数据不发表科研论文曲线提取数据。

而且它的确定有一些人的指导。 没有理由的OCR无法读取“100”,并与线匹配起来,例如,但它的确定有一个人给线数值后机器已经曲线的路径相对于网格线提取。 我在相对于网格曲线跟踪的功能最感兴趣,即使电网倾斜,旋转,或在非亲和的方式扭曲 。

更新:

现在有一个维基百科的文章叫做转换扫描的图形数据与链接一堆软件。 也有一些关于alternativeto.net软件 。 我猜理论属于上http://dsp.stackexchange.com现在,而软件解决方案上属于http://superuser.com ?

Answer 1:

这是非常难,而且容易出错。 (我们做这样的事情很多化学,我们尝试分析化学)。它严重依赖于各种参数和条件。

  1. 是图像的位图(只像素)或载体(EMF,WMF,SVG,PS,PDF ...)? 载体是远远大于像素更好。 我们应对载体(包括PDF),但不要触摸像素。 我们的一些collbaorators将尝试使用像素,但只有在相当新的文件。
  2. 如果你被卡住像素,然后是你的图片都来自同一来源? 如果让你拥有提取字体信息的可能性很小。 恐怕你的形象这么差,这将要求对工作很大。 但是,如果你能制定出的字体,你必须在所有的文档都来自同一来源中提取文本和数字的机会。 你可以使用启发式(规则,如在数字可能)或机器学习(一个功能上whioch方法可以训练列表)。
  3. 你的形象似乎已经扫描(如轴是像素化)。 这使事情变得更糟。 什么出现直线映入眼帘的是可怕的机器。 是您的图像歪斜的页面上? 您可能需要纠偏了。
  4. 如果您对直线和曲线的模型,那么你可能有预期的参数模拟成图像的变化。 但是,这不是小事。

对不起悲观。 如果你真的想要的信息,然后它可以与大量的投资或合作的与做这样的事情一组来完成。



Answer 2:

谷歌为“曲线识别软件”表明http://www.curveunscan.com/



Answer 3:

http://www.digitizeit.de/是数字化图形的程序。



Answer 4:

还有potrace这是关系,进而在该网页中提到的其他替代品



Answer 5:

我不知道做什么你问任何软件,但如果你能得到的只是几个点,你可以使用某种回归,以找到适合这些点的最佳功能。 这种特殊的图形看起来像一个指数函数。 所以,你会希望找到一个指数回归计算器。



Answer 6:

我用im2graph到图形图像转换为数据,也就是数字。 im2graph是免费的,可用于Linux和Windows。 非常光滑,需要您做很少的努力产生的结果。 见http://www.im2graph.co.il



文章来源: Plot digitization - scraping sample values from an image of a graph