谁能帮我共同计算F-措施? 我知道如何计算召回率和准确,但不知道对于一个给定的算法如何计算一个F-测量值。
作为为例,假设我的算法创建M个簇,但我知道有相同数据n团簇(由另一基准算法创建)。
我发现了一个PDF,但因为我得到了集体的价值大于1 PDF的参考是它是没有用的F值解释 。 具体来说,我已阅读一些研究论文,在其中作者F值的基础上,两种算法进行比较,他们得到了共同值0和1之间,如果你阅读上面提到的仔细的PDF,公式为F(C,K) =Σ| CI | / N *最大{F(CI,KJ)}
其中CI是参考簇KJ被群集通过其他算法创建的,这里i的运行从1到n&j被从1到m.Let说| C1 | = 218在这里按照PDF N = m * n个让说米= 12和n = 10,我们得到了最大F(C1,KJ)对于j = 2。 绝对F(C1,K2)是0和1,但通过上面的公式,我们将得到上述1值而计算得到的值之间。
术语F-措施本身是尚未。 这是调和平均数 ,通常精确度和召回。 其实你甚至应该说F1分数 ,如果你指的是加权版本,因为你可以把不同的权重的两个输入值。 但是,如果没有说这两个值的平均值(而不是在算术意义上的意思!)这个不说了。
https://en.wikipedia.org/wiki/F1_score
请注意,这些值必须在0-1值范围内 。 否则,你有一个错误早些时候。
在聚类分析中,常用的方法是将F1-测量适用于精确度和对召回,通常被称为“一对计数F值”。 但是,你可以计算其它值相同的均值,太。
一对计数具有很好的特性,它不直接比较的簇,因此,当一个结果具有m簇结果被很好地定义,其他的具有n个集群。 然而, 对计数需要严格的分区 。 当元素不聚集或分配给多个集群,所述一对计数措施可以很容易地去范围是0-1的进行。
- E. Achtert,S. GOLDHOFER,H.-P. 克里格尔,E.舒伯特,A Zimek
聚类指标和可视化支持的评估
诠释。 CONF。 数据工程(ICDE 2012)
http://www.computer.org/portal/web/csdl/doi/10.1109/ICDE.2012.128
讨论了一些这些度量(包括兰德索引并且这样的)的和给出了“一对计数F值”的一个简单的解释。
的N个公式中,F(C,K)=Σ| CI | / N *最大{F(CI,KJ)},是的总和| CI | 在所有的i,即它是元件的总数。 您可能误以为它是集群的数量,因此不是一个得到一个答案更大。 如果你做出改变,你的回答将是1和0之间。
由马赫什CS提供的例子是正确的,应该帮助你(和其他人),以了解对计数F值是如何工作的。
所提供的例子来自纸“ 表征的相似性措施评价对聚类的 ”大流士普菲茨纳,理查德Leibbrandt和大卫权力,并含有大量的关于这方面的有用信息。
因此,例如给定,
D = {1, 2, 3, 4, 5, 6}
和分区,
P = {1, 2, 3}, {4, 5}, {6}, and
Q = {1, 2, 4}, {3, 5, 6}
其中设置由我们的算法创建P和设置由我们熟知的标准算法创建Q
PairsP = {(1, 2), (1, 3), (2, 3), (4, 5)},
PairsQ = {(1, 2), (1, 4), (2, 4), (3, 5), (3, 6), (5, 6)}, and
PairsD = {(1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 3), (2, 4),
(2, 5), (2, 6), (3, 4), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6)}
所以,
a = | PairsP intersection PairsQ | = |(1, 2)| = 1
b = | PairsP- PairsQ | = |(1, 3)(2, 3)(4, 5)| = 3
c = | PairsQ- PairsP | = |(1, 4)(2, 4)(3, 5)(3, 6)(5, 6)| = 5
F-measure= 2a/(2a+b+c)