我在读安德鲁·吴的机器学习笔记,但功能裕度定义搞糊涂了:
我可以理解几何保证金是从x到它的超平面的距离,但如何理解功能保证金? 为什么他们定义其公式那样?
我在读安德鲁·吴的机器学习笔记,但功能裕度定义搞糊涂了:
我可以理解几何保证金是从x到它的超平面的距离,但如何理解功能保证金? 为什么他们定义其公式那样?
想想看这样的:W ^ T.x_i + b是模型对第i个数据点的预测。 Y_I是它的标签。 如果预测与地面实况具有相同的符号,然后gamma_i将是积极的。 进一步的“内部”级边界这种情况下是,更大的gamma_i将是:这是更好,因为,总结了所有我,你有你自己的类之间更大的分离。 如果预测和标签不符号一致,那么这个数量将是负数(由预测不正确的决定),这将减少你的保证金,这将减少越多,你不正确的(类似于松弛变量) 。
功能保证金:
这使点相对于平面,它不依赖于幅度的位置。
几何保证金:
这给定的训练例子和给定平面之间的距离。
您可以功能保证金转移到基于以下两个假设几何保证金:
|| w ^ || == 1,因此(W ^ T)X + B ==((W ^ T)X + B)/ || ||瓦特,这是从点x的直线y =几何距离(W ^ T) X + b。
只有两个类别的目标,其中Y_I只能是+1和-1。 因此,如果Y_I的符号的行的面与其中点x位于(Y_I> 0时(W ^ T)X + B> 0,Y_I <0时(W ^ T)X + B <0)相乘Y_I是简单地等同于获得的距离的绝对值(W ^ T)X + b。
对于这个问题
为什么他们定义其公式那样?
说明:功能利润率并没有告诉我们关于不同点来分离平面/线的精确距离和测量。
举例来说,只需考虑下面几行,他们是相同的,但功能将保证金变化(功能保证金的限制)。
2*x + 3*y + 1 = 0
4*x + 6*y + 2 = 0
20*x + 30*y +10 = 0
功能保证金只是给我们的分类,没有具体的信心的想法。
也请阅读以下参考更多详细信息。
参考安德鲁NG的讲义,请点击这里了解更多详情
如果Y(I)= 1,则用于功能余量为大的(即,对于我们的预测是自信和正确的),我们需要WTX + B是一个大的正数。 相反地,如果Y(I)= - 1,则用于功能余量为大,我们需要WTX + B为大的负数。 而且,如果y(I)(WTX + B)> 0,则我们在此示例预测是正确的。 (检查此自己)。因此,一个大的功能余量表示自信和一个正确的预测。
官能余量用于缩放。
几何余量=官能余量/范数(W)。
或者,当标准(W)= 1,则边缘是几何余量