文字逐点互信息(Pointwise mutual information on text)

2019-08-03 01:06发布

我不知道怎么一会计算文本分类的逐点互信息。 更确切的说,我要在类别分类鸣叫。 我有鸣叫(被注释)的数据集,我有每个属于这一类词的类别字典。 鉴于这一信息,怎么可能来计算PMI每鸣叫每个类别的鸣叫在这些类别中的一种分类。

Answer 1:

PMI是一个功能(在你的情况下,一个字)和类(类别)之间的关联的度量,而不是一个文件(鸣叫)和类别之间。 其计算公式为可在维基百科 :

                  P(x, y)
pmi(x ,y) = log ------------ 
                  P(x)P(y)

在该式中, X是随机变量,它的模型的单词的发生,并Y模型一类的发生。 对于给定的字x和给定类y ,您可以使用PMI来决定是否一个特点是内容丰富与否,你可以在此基础上做特征选择。 拥有较少的功能通常可以提高您的分类算法的性能,并大大加快起来。 分类步骤,但是,separate- PMI不仅可以帮助您选择更好的功能,喂到你的学习算法。


编辑:有一件事我没有在原岗位提的是,PMI对词频敏感。 让我们重写公式

                  P(x, y)             P(x|y)
pmi(x ,y) = log ------------ = log ------------ 
                  P(x)P(y)             P(x)

xy完全相关, P(x|y) = P(y|x) = 1 ,所以pmi(x,y) = 1/P(x) 较少见的x -es(字)将具有更高的PMI评分较频繁的x -es,即使双方都完全符合相关y



文章来源: Pointwise mutual information on text