我想创建程序,利用聚类分层聚集集簇的文件和程序的输出取决于将树形图在我得到最大的纯度这样的水平。
所以,以下是我现在正在工作的算法。
Create dedrogram for the documents in the dataset
purity = 0
final_clusters
for all the levels, lvl, in the dendrogram
clusters = cut dendrogram at lvl
new_purity = calculate_purity_of(clusters)
if new_purity > purity
purity = new_purity
final_clusters = clusters
根据这个算法,我得到处计算出的纯度最高,在所有级别的集群。
问题是,当我切断树状图在最低水平,每群只有一个文件,这意味着它是100%纯的,因此簇的平均纯度为1.0。 但是,这不是所需的输出。 我想是的文件正确分组。 难道我做错了什么?