计算F值聚类(Computing F-measure for clustering)

谁能帮我共同计算F-措施？我知道如何计算召回率和准确，但不知道对于一个给定的算法如何计算一个F-测量值。

作为为例，假设我的算法创建M个簇，但我知道有相同数据n团簇（由另一基准算法创建）。

我发现了一个PDF，但因为我得到了集体的价值大于1 PDF的参考是它是没有用的F值解释。具体来说，我已阅读一些研究论文，在其中作者F值的基础上，两种算法进行比较，他们得到了共同值0和1之间，如果你阅读上面提到的仔细的PDF，公式为F（C，K） =Σ| CI | / N *最大{F（CI，KJ）}
其中CI是参考簇KJ被群集通过其他算法创建的，这里i的运行从1到n＆j被从1到m.Let说| C1 | = 218在这里按照PDF N = m * n个让说米= 12和n = 10，我们得到了最大F（C1，KJ）对于j = 2。绝对F（C1，K2）是0和1，但通过上面的公式，我们将得到上述1值而计算得到的值之间。

Answer 1:

术语F-措施本身是尚未。这是调和平均数 ，通常精确度和召回。其实你甚至应该说F1分数 ，如果你指的是加权版本，因为你可以把不同的权重的两个输入值。但是，如果没有说这两个值的平均值（而不是在算术意义上的意思！）这个不说了。

https://en.wikipedia.org/wiki/F1_score

请注意，这些值必须在0-1值范围内 。否则，你有一个错误早些时候。

在聚类分析中，常用的方法是将F1-测量适用于精确度和对召回，通常被称为“一对计数F值”。但是，你可以计算其它值相同的均值，太。

一对计数具有很好的特性，它不直接比较的簇，因此，当一个结果具有m簇结果被很好地定义，其他的具有n个集群。然而， 对计数需要严格的分区 。当元素不聚集或分配给多个集群，所述一对计数措施可以很容易地去范围是0-1的进行。

E. Achtert，S. GOLDHOFER，H.-P. 克里格尔，E.舒伯特，A Zimek
聚类指标和可视化支持的评估
诠释。 CONF。数据工程（ICDE 2012）
http://www.computer.org/portal/web/csdl/doi/10.1109/ICDE.2012.128

讨论了一些这些度量（包括兰德索引并且这样的）的和给出了“一对计数F值”的一个简单的解释。

Answer 2:

的N个公式中，F（C，K）=Σ| CI | / N *最大{F（CI，KJ）}，是的总和| CI | 在所有的i，即它是元件的总数。您可能误以为它是集群的数量，因此不是一个得到一个答案更大。如果你做出改变，你的回答将是1和0之间。

Answer 3:

由马赫什CS提供的例子是正确的，应该帮助你（和其他人），以了解对计数F值是如何工作的。

所提供的例子来自纸“ 表征的相似性措施评价对聚类的 ”大流士普菲茨纳，理查德Leibbrandt和大卫权力，并含有大量的关于这方面的有用信息。

Answer 4:

因此，例如给定，

           D = {1, 2, 3, 4, 5, 6}

和分区，

           P = {1, 2, 3}, {4, 5}, {6}, and
           Q = {1, 2, 4}, {3, 5, 6}

其中设置由我们的算法创建P和设置由我们熟知的标准算法创建Q

           PairsP = {(1, 2), (1, 3), (2, 3), (4, 5)},
           PairsQ = {(1, 2), (1, 4), (2, 4), (3, 5), (3, 6), (5, 6)}, and
           PairsD = {(1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 3), (2, 4),
                      (2, 5), (2, 6), (3, 4), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6)}

所以，

           a = | PairsP intersection PairsQ | = |(1, 2)| = 1
           b = | PairsP- PairsQ | = |(1, 3)(2, 3)(4, 5)| = 3
           c = | PairsQ- PairsP  | = |(1, 4)(2, 4)(3, 5)(3, 6)(5, 6)| = 5