-->

使用共发现以确定两个文本之间的语义相似性?(Using WordNet to determine s

2019-07-30 10:03发布

你怎么能确定两个文本之间的语义相似在使用Python共发现?

最明显的preproccessing将被移除停止字和制止,但然后呢?

我能想到的唯一方法是计算两个文本每个单词之间的共发现路径距离。 这是对unigram标准。 但这些都是大(400字)的文本,作为自然语言文档,与不以任何特定的顺序或结构(除了那些英语语法规定除外)的话。 所以,你会文本之间比较哪个词? 你将如何在Python做到这一点?

Answer 1:

有一件事,你可以做的是:

  1. 杀死停用词
  2. 找到尽可能多的单词可能有同义词和反义词与同一文档的其他词的最大的交叉点。 让我们把这些“重要的话”
  3. 查看是否集合的每个文档的重要的话是一样的。 越接近他们在一起,更多的语义相似的文档。

还有另一种方法。 计算句子树木出每个文档的句子。 然后比较这两个森林。 我做了一些类似的工作为一疗程很久以前。 下面的代码 (记住,这是很久以前的事,它是类。因此,代码是非常哈克,至少可以这样说)。

希望这可以帮助



文章来源: Using WordNet to determine semantic similarity between two texts?