谷歌瑞风配方在两个数据库协调实体凌乱(Google Refine recipe for reconc

2019-07-29 07:21发布

我凌乱的名字,如这两个数据库:

  • 金达莱,鲍比
  • 佛罗里达州州长鲍比金达尔
  • 鲍比金达尔
  • 3M公司
  • 3M梅诺米利

我要找到匹配。 任何人都可以点我或建议良方如何做到这一点在谷歌瑞风?

此链接给我一个起点,但我会用更多的建议: http://blog.ouseful.info/2011/05/06/merging-datesets-with-common-columns-in-google-refine/

Answer 1:

您可以尝试我们的瑞风扩展 ,特别是看到了和解的文档的一部分。



Answer 2:

cell.cross function is similar to the vlookup in Excel, it will match only if your two cells are identical. If you want to use this method you will need to cluster and clean your data a lot before.

I support Michael answer. Try a reconciliation service: rdf one or the open reconcile.



文章来源: Google Refine recipe for reconciling messy entities in two databases