寻找附近的重复记录技术寻找附近的重复记录技术(Techniques for finding near

我试图清理，多年来，已获得许多重复记录的数据库，以稍微不同的名称。例如，在公司的表，也有像“有些有限公司”和姓名“有些COMPANY LTD！”。

我的计划是有问题的表导出为R，转换名称为小写，代替普通的同义词（如“限” - >“有限公司”），剥离非字母字符，然后使用agrep看什么长相相似。

我的第一个问题是， agrep只接受单一的模式来匹配，并遍历每家公司的名字来匹配其他人慢。（要清洗一些表将有几十，甚至几百个几千名来检查的。）

我很简单看了一下tm封装（ JSS文章），而且看起来很强大，但对分析文本的大块，而不是仅仅名称为目标。

我有几个相关的问题：

是tm封装适合这种任务的？
是否有一个更快的替代agrep ？（该函数使用的Levenshtein编辑距离是闲谈慢。）
是否有其他合适的工具R，除了agrep和tm ？
应我甚至在R上这样做，还是应该这样的事情可以直接在数据库中做了什么？（这是一个Access数据库，所以我宁愿尽可能避免触碰它。）

Answer 1:

如果你只是在做的比较好，形成小批量，那么compare.linkage()或compare.dedup()的函数RecordLinkage包装应该是一个很好的起点。但如果你有大批量，那么你可能需要做一些更多的修修补补。

我使用的功能jarowinkler() levenshteinSim()和soundex()在RecordLinkage写我自己的函数，用我自己的权重方案（也，不如说是，你不能用soundex()用于大数据集的RecordLinkage ）。

如果我有，我想匹配（“记录链接”）名称的两个列表，然后我通常都转换为小写，并删除所有标点。为了照顾“有限”与“有限公司”我通常创建从每个列表，它允许在第一个字额外加权的第一个字的另一种载体。如果我认为一个列表可能包含首字母缩写词（也许ATT或IBM），那么我会缩写-IZE其他列表。对于每个列表我结束了，我想比较，我写在MySQL数据库中成为独立的表字符串的数据帧。

所以，我不会有太多的考生结束了，我LEFT OUTER JOIN的东西，有两个列表之间的匹配（也许这是每个列表中的前三个字母或前三个字母的前三个字母这两个表的缩写）。然后我计算使用上述功能的匹配分数。

你仍然需要做大量的人工检查的，但你可以排序的比分迅速排除不匹配。