我使用分类的资源管理器功能。 我.arff数据文件有数字和二进制值的10个功能; (仅实例的ID是标称).I具有生根粉16个实例。 预测类是/第i个已经用朴素贝叶斯但我cantnot解释结果,,没有人知道如何解释从朴素贝叶斯分类结果?
Answer 1:
朴素贝叶斯没有选择任何重要特征。 至于你提到的朴素贝叶斯分类器的训练的结果是每一个功能的均值和方差。 新样本为“是”或“否”的分类是基于是否样品匹配最佳的功能的受训特点的均值和方差的值是“是”或“否”。
你可以使用其他算法来找到最翔实的属性。 在这种情况下,你可能想使用决策树分类,如J48在WEKA(这是开源实现C4.5决策树算法 )。 在判决结果树的第一个节点告诉你该产品采用了最有预测能力。
更妙的是(在其他职位由Rushdi沙姆斯说明); Weka中的资源管理器提供了目的构建选项找到一个数据集的最有用的属性。 这些选项可以发现下Select attributes
选项卡。
Answer 2:
正如Sicco说NB不能为您提供最佳的功能。 决策树是一个不错的选择,因为分支有时可以告诉你的特点,那就是重要的 - 但并非总是如此。 为了处理简单到复杂的功能集,你可以使用WEKA的选择属性选项卡。 在那里,你可以找到搜索的方法和属性评估。 根据你的任务,你可以选择最适合你的。 他们会为您提供的功能(无论是从训练数据,或从一个k-折交叉验证)排名。 就个人而言,我认为,决策树,如果你的数据集进行过拟合较差。 在这种情况下,特征的排名来选择最好的功能的标准方法。 大部分的时间我使用infogain和排序器算法。 当你看到你的属性是从1到排名K,这是非常好的找出所需的功能和不必要的。
文章来源: Weka machine learning:how to interprete Naive Bayes classifier?