有没有人发现了一个简单而有效的方法,从文本中提取日期的引用? 我已经做了搜索时间提取工具相当数量,但没有很多在那里。 有几个白皮书,但它似乎陷入了整个语义网啄的一个子集,但没有太多的关注。
我只是在寻找的东西是80%有效。 有没有必要捕捉到像“2009年1月后的一个月”,但基本常用日期实体将是很好。
我向所有人开放的建议,甚至花哨的正则表达式的表达式。
火了!
(感谢亨利 - )
有没有人发现了一个简单而有效的方法,从文本中提取日期的引用? 我已经做了搜索时间提取工具相当数量,但没有很多在那里。 有几个白皮书,但它似乎陷入了整个语义网啄的一个子集,但没有太多的关注。
我只是在寻找的东西是80%有效。 有没有必要捕捉到像“2009年1月后的一个月”,但基本常用日期实体将是很好。
我向所有人开放的建议,甚至花哨的正则表达式的表达式。
火了!
(感谢亨利 - )
如果你的数据在目标时间表达只能在有限的格式,使用正则表达式和迭代的方法来优化您的系统
否则,使用斯坦福NLP工具包, SUTime ,这可能是过杀,但绝对满足您的需求
我这样做的一种方法是只寻找什么,是4个数字,并将其转换为数字。 如果数量低于你有兴趣年的范围内,你可能有一年就可以使用。 如果你有兴趣在任何匹配的月份和日期,你可以检查相邻的话,看看他们是一个月名或1至31之间的数字。我相信这将满足你的80%的要求。
正则表达式年:[0-9] {4} - 您将需要转换为一个数字,看看它是年你认为有效的范围内。
正则表达式月:一月|一月|二月|二月...等每月
正则表达式月的天数:[0-9] {1,2} - 你需要转换为一个数字,看看它是否是1-31
我画如何找到什么给它一片空白,但这个库将解析广泛的日期,并且可以用作“这是一个真正的日期”功能。 (全面披露,我认为LIB的作者)