如何应对C4.5(J48)决策树缺失属性值?(How to deal with missing at

2019-08-02 20:18发布

什么是与Weka中的C4.5(J48)决策树来处理缺失的特征属性值的最佳方法? 遗漏值的问题,培训和分类过程中发生。

  1. 如果值从训练实例失踪,我在假设我把正确的“?” 为特征值?

  2. 假设我能够成功构建决策树,然后从Weka中的树结构C语言创建我自己的树码++或Java。 在分类的时候,如果我想要一个新的实例进行分类,我把什么样的价值对于具有遗漏值的特点? 我将如何下降的树过去的,我有一个未知的值决定的节点?

将采用朴素贝叶斯是处理缺失值更好吗? 我只是分配一个非常小的概率不为零的他们,对不对?

Answer 1:

来自华盛顿大学佩德罗多明戈斯ML过程:

这里有什么佩德罗提出了的缺失值的三种方法A

  • 分配的最常见的值A分类到节点其他示例n
  • 分配的最常见的值A与相同目标值其他示例
  • 分配概率p_i到每个可能值v_iA ; 指定分数p_i例如在树中的每个后代。

幻灯片和视频现在是在观看这里 。



Answer 2:

另一种方法是离开缺失值作为“?”,而不是将其用于信息增益计算。 无节点应该是因为你在信息增益步长忽视了它的分类中有未知的值。 对于分类,我相信你只是考虑遗漏值未知的,对特定的属性分类时不要删除它。



文章来源: How to deal with missing attribute values in C4.5 (J48) decision tree?