我使用的Weka进行聚类一些数据,也陷入了一个非常奇怪的问题。 当我用普通的“集群”工具对数据集,我得到的结果
Cluster 1: 87 instances
Cluster 2: 88 instances
Cluster 3: 181 instances
这是我从我的数据排序的预期,所以我认为这是一个很好的结果。 不过,我想添加这个群集作为一个类,并将其保存为一个新的.arff
文件,所以我想使用“添加群集”过滤器的Weka提供。 现在,在这个过滤器,我选择相同的人聚类(EM这个实验),并确保所有的设置都是一样的(甚至是种子数)。 当我申请,我得到的更糟糕的结果
Cluster 1: 87 instances
Cluster 2: 43 instances
Cluster 3: 226 instances
这是比以前明显不同,但我不知道为什么。 我有双重检查我的所有设置,以确保它们是相同的,所以我敢肯定它不是这样的结果。 此外,在这个问题上他有同样的问题,答案Zannjaminderson意见,所以它可能只是不是我(我会发表评论,看看如何/如果他固定它,但可惜我没有50 REP)。
我认为可能影响结果的一件事是什么聚类的培训上。 在原来的集群,我用了整个训练集,但“添加集群”集聚,我不认为它指定什么训练,所以这可能是错误的来源。 最后,我的问题是:为什么这种差异发生,我能做些什么(如果有的话),以阻止它?