什么是与Weka中的C4.5(J48)决策树来处理缺失的特征属性值的最佳方法? 遗漏值的问题,培训和分类过程中发生。
如果值从训练实例失踪,我在假设我把正确的“?” 为特征值?
假设我能够成功构建决策树,然后从Weka中的树结构C语言创建我自己的树码++或Java。 在分类的时候,如果我想要一个新的实例进行分类,我把什么样的价值对于具有遗漏值的特点? 我将如何下降的树过去的,我有一个未知的值决定的节点?
将采用朴素贝叶斯是处理缺失值更好吗? 我只是分配一个非常小的概率不为零的他们,对不对?
什么是与Weka中的C4.5(J48)决策树来处理缺失的特征属性值的最佳方法? 遗漏值的问题,培训和分类过程中发生。
如果值从训练实例失踪,我在假设我把正确的“?” 为特征值?
假设我能够成功构建决策树,然后从Weka中的树结构C语言创建我自己的树码++或Java。 在分类的时候,如果我想要一个新的实例进行分类,我把什么样的价值对于具有遗漏值的特点? 我将如何下降的树过去的,我有一个未知的值决定的节点?
将采用朴素贝叶斯是处理缺失值更好吗? 我只是分配一个非常小的概率不为零的他们,对不对?
来自华盛顿大学佩德罗多明戈斯ML过程:
这里有什么佩德罗提出了的缺失值的三种方法A
:
A
分类到节点其他示例n
A
与相同目标值其他示例 p_i
到每个可能值v_i
的A
; 指定分数p_i
例如在树中的每个后代。 幻灯片和视频现在是在观看这里 。
另一种方法是离开缺失值作为“?”,而不是将其用于信息增益计算。 无节点应该是因为你在信息增益步长忽视了它的分类中有未知的值。 对于分类,我相信你只是考虑遗漏值未知的,对特定的属性分类时不要删除它。