时间提取(从自由格式文本即提取日期/时间的实体) - 如何?(Temporal Extraction

2019-07-30 07:03发布

有没有人发现了一个简单而有效的方法,从文本中提取日期的引用? 我已经做了搜索时间提取工具相当数量,但没有很多在那里。 有几个白皮书,但它似乎陷入了整个语义网啄的一个子集,但没有太多的关注。

我只是在寻找的东西是80%有效。 有没有必要捕捉到像“2009年1月后的一个月”,但基本常用日期实体将是很好。

我向所有人开放的建议,甚至花哨的正则表达式的表达式。

火了!

(感谢亨利 - )

Answer 1:

  1. 如果你的数据在目标时间表达只能在有限的格式,使用正则表达式和迭代的方法来优化您的系统

  2. 否则,使用斯坦福NLP工具包, SUTime ,这可能是过杀,但绝对满足您的需求



Answer 2:

我这样做的一种方法是只寻找什么,是4个数字,并将其转换为数字。 如果数量低于你有兴趣年的范围内,你可能有一年就可以使用。 如果你有兴趣在任何匹配的月份和日期,你可以检查相邻的话,看看他们是一个月名或1至31之间的数字。我相信这将满足你的80%的要求。

正则表达式年:[0-9] {4} - 您将需要转换为一个数字,看看它是年你认为有效的范围内。

正则表达式月:一月|一月|二月|二月...等每月

正则表达式月的天数:[0-9] {1,2} - 你需要转换为一个数字,看看它是否是1-31



Answer 3:

我画如何找到什么给它一片空白,但这个库将解析广泛的日期,并且可以用作“这是一个真正的日期”功能。 (全面披露,我认为LIB的作者)



文章来源: Temporal Extraction (i.e. Extract date/time entities from free form text) - How?