计算F值聚类(Computing F-measure for clustering)

2019-08-01 03:40发布

谁能帮我共同计算F-措施? 我知道如何计算召回率和准确,但不知道对于一个给定的算法如何计算一个F-测量值。

作为为例,假设我的算法创建M个簇,但我知道有相同数据n团簇(由另一基准算法创建)。

我发现了一个PDF,但因为我得到了集体的价值大于1 PDF的参考是它是没有用的F值解释 。 具体来说,我已阅读一些研究论文,在其中作者F值的基础上,两种算法进行比较,他们得到了共同值0和1之间,如果你阅读上面提到的仔细的PDF,公式为F(C,K) =Σ| CI | / N *最大{F(CI,KJ)}
其中CI是参考簇KJ被群集通过其他算法创建的,这里i的运行从1到n&j被从1到m.Let说| C1 | = 218在这里按照PDF N = m * n个让说米= 12和n = 10,我们得到了最大F(C1,KJ)对于j = 2。 绝对F(C1,K2)是0和1,但通过上面的公式,我们将得到上述1值而计算得到的值之间。

Answer 1:

术语F-措施本身是尚未。 这是调和平均数 ,通常精确度和召回。 其实你甚至应该说F1分数 ,如果你指的是加权版本,因为你可以把不同的权重的两个输入值。 但是,如果没有说这两个值的平均值(而不是在算术意义上的意思!)这个不说了。

https://en.wikipedia.org/wiki/F1_score

请注意,这些值必须在0-1值范围内 。 否则,你有一个错误早些时候。

在聚类分析中,常用的方法是将F1-测量适用于精确度和召回,通常被称为“一对计数F值”。 但是,你可以计算其它值相同的均值,太。

一对计数具有很好的特性,它不直接比较的簇,因此,当一个结果具有m簇结果被很好地定义,其他的具有n个集群。 然而, 对计数需要严格的分区 。 当元素不聚集或分配给多个集群,所述一对计数措施可以很容易地去范围是0-1的进行。

  • E. Achtert,S. GOLDHOFER,H.-P. 克里格尔,E.舒伯特,A Zimek
    聚类指标和可视化支持的评估
    诠释。 CONF。 数据工程(ICDE 2012)
    http://www.computer.org/portal/web/csdl/doi/10.1109/ICDE.2012.128

讨论了一些这些度量(包括兰德索引并且这样的)的和给出了“一对计数F值”的一个简单的解释。



Answer 2:

的N个公式中,F(C,K)=Σ| CI | / N *最大{F(CI,KJ)},是的总和| CI | 在所有的i,即它是元件的总数。 您可能误以为它是集群的数量,因此不是一个得到一个答案更大。 如果你做出改变,你的回答将是1和0之间。



Answer 3:

马赫什CS提供的例子是正确的,应该帮助你(和其他人),以了解对计数F值是如何工作的。

所提供的例子来自纸“ 表征的相似性措施评价对聚类的 ”大流士普菲茨纳,理查德Leibbrandt和大卫权力,并含有大量的关于这方面的有用信息。



Answer 4:

因此,例如给定,

           D = {1, 2, 3, 4, 5, 6}

和分区,

           P = {1, 2, 3}, {4, 5}, {6}, and
           Q = {1, 2, 4}, {3, 5, 6}

其中设置由我们的算法创建P和设置由我们熟知的标准算法创建Q

           PairsP = {(1, 2), (1, 3), (2, 3), (4, 5)},
           PairsQ = {(1, 2), (1, 4), (2, 4), (3, 5), (3, 6), (5, 6)}, and
           PairsD = {(1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 3), (2, 4),
                      (2, 5), (2, 6), (3, 4), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6)}

所以,

           a = | PairsP intersection PairsQ | = |(1, 2)| = 1
           b = | PairsP- PairsQ | = |(1, 3)(2, 3)(4, 5)| = 3
           c = | PairsQ- PairsP  | = |(1, 4)(2, 4)(3, 5)(3, 6)(5, 6)| = 5
         
     F-measure= 2a/(2a+b+c)


文章来源: Computing F-measure for clustering