文字逐点互信息(Pointwise mutual information on text)

2019-08-03 00:56发布

我不知道怎么一会计算文本分类的逐点互信息。更确切的说，我要在类别分类鸣叫。我有鸣叫（被注释）的数据集，我有每个属于这一类词的类别字典。鉴于这一信息，怎么可能来计算PMI每鸣叫每个类别的鸣叫在这些类别中的一种分类。

Answer 1:

PMI是一个功能（在你的情况下，一个字）和类（类别）之间的关联的度量，而不是一个文件（鸣叫）和类别之间。其计算公式为可在维基百科：

                  P(x, y)
pmi(x ,y) = log ------------ 
                  P(x)P(y)

在该式中， X是随机变量，它的模型的单词的发生，并Y模型一类的发生。对于给定的字x和给定类y ，您可以使用PMI来决定是否一个特点是内容丰富与否，你可以在此基础上做特征选择。拥有较少的功能通常可以提高您的分类算法的性能，并大大加快起来。分类步骤，但是，separate- PMI不仅可以帮助您选择更好的功能，喂到你的学习算法。

编辑：有一件事我没有在原岗位提的是，PMI对词频敏感。让我们重写公式

                  P(x, y)             P(x|y)
pmi(x ,y) = log ------------ = log ------------ 
                  P(x)P(y)             P(x)

当x和y完全相关， P(x|y) = P(y|x) = 1 ，所以pmi(x,y) = 1/P(x) 较少见的x -es（字）将具有更高的PMI评分较频繁的x -es，即使双方都完全符合相关y 。

文章来源: Pointwise mutual information on text

文字逐点互信息(Pointwise mutual information on text)

Answer 1:

收藏的人(0)

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮