你怎么能确定两个文本之间的语义相似在使用Python共发现?
最明显的preproccessing将被移除停止字和制止,但然后呢?
我能想到的唯一方法是计算两个文本每个单词之间的共发现路径距离。 这是对unigram标准。 但这些都是大(400字)的文本,作为自然语言文档,与不以任何特定的顺序或结构(除了那些英语语法规定除外)的话。 所以,你会文本之间比较哪个词? 你将如何在Python做到这一点?
你怎么能确定两个文本之间的语义相似在使用Python共发现?
最明显的preproccessing将被移除停止字和制止,但然后呢?
我能想到的唯一方法是计算两个文本每个单词之间的共发现路径距离。 这是对unigram标准。 但这些都是大(400字)的文本,作为自然语言文档,与不以任何特定的顺序或结构(除了那些英语语法规定除外)的话。 所以,你会文本之间比较哪个词? 你将如何在Python做到这一点?
有一件事,你可以做的是:
还有另一种方法。 计算句子树木出每个文档的句子。 然后比较这两个森林。 我做了一些类似的工作为一疗程很久以前。 下面的代码 (记住,这是很久以前的事,它是类。因此,代码是非常哈克,至少可以这样说)。
希望这可以帮助