我目前正在读机学习本书由汤姆·米切尔。 在谈到神经网络,米切尔说:
“虽然感知规则找到一个成功的权重向量当训练例子是线性可分的,它可以不收敛如果例子不是线性可分的。”
我有问题理解他以“线性分离”意味着什么? 维基百科告诉我,“在二维空间中的两个点集是线性可分的,如果他们可以通过一个单一的线完全分离。”
但这是如何应用到神经网络设置的培训? 输入(或动作单位)怎么会是线性可分与否?
我不是在几何和数学最好的 - 可能有人解释给我,好像我是5? ;) 谢谢!
我目前正在读机学习本书由汤姆·米切尔。 在谈到神经网络,米切尔说:
“虽然感知规则找到一个成功的权重向量当训练例子是线性可分的,它可以不收敛如果例子不是线性可分的。”
我有问题理解他以“线性分离”意味着什么? 维基百科告诉我,“在二维空间中的两个点集是线性可分的,如果他们可以通过一个单一的线完全分离。”
但这是如何应用到神经网络设置的培训? 输入(或动作单位)怎么会是线性可分与否?
我不是在几何和数学最好的 - 可能有人解释给我,好像我是5? ;) 谢谢!
假设你想要写一个算法决定,基于两个参数,尺寸和价格,如果一个房子将在同一年它被发售,还是不卖。 所以,你有2个输入,尺寸和价格,和一个输出,将出售或不会出售。 现在,当您收到您的训练集,是可能发生的输出不积累,使我们的预测容易(你能告诉我,基于第一图表如果X
将是一个N或S怎么样,第二图):
^
| N S N
s| S X N
i| N N S
z| S N S N
e| N S S N
+----------->
price
^
| S S N
s| X S N
i| S N N
z| S N N N
e| N N N
+----------->
price
哪里:
S-sold,
N-not sold
正如你可以在第一张图看,你真的不能用直线分开的两个可能的输出(另售/未售),无论你如何尝试总是会有两个S
和N
上线的两侧,这意味着你的算法将有很多的possible
行,但没有终极,正确的路线分裂的2个输出(当然,预测新的,这是从一开始的目标)。 这就是为什么linearly separable
(第二图)的数据集更容易预测。
这意味着有一个超平面(其将您的输入空间划分为两个半空间),使得所述第一类中的所有点都在一个半空间和与第二类都在另一半空间。
在两个维度,这意味着,存在从其它类的点隔开一个类的点的线。
编辑:例如,在该图像中,如果蓝色圆圈从一类代表点和红色圆圈代表从另一个类的点,那么这些点是线性可分。
在三维中,它意味着存在从其它类的点隔开一个类的点的平面。
在更高的维度,它是相似的:必须存在分开两组分的超平面。
你提到你在数学不好,所以我不写了正式的定义,但让我知道(在评论),如果这将有助于。
请看下面的两组数据:
^ ^
| X O | AA /
| | A /
| | / B
| O X | A / BB
| | / B
+-----------> +----------->
左边的数据集不是线性分离(不使用内核)。 正确的可分离成两个部分A' and
B`由所指示的线。
即你可以不画一条直线到左边的形象,使所有的X
都在一边,所有的O
都是对等的。 这就是为什么它被称为“不是线性可分” ==不存在由于线性流分隔两班。
现在,著名的核技巧 (这肯定会在下一本书中讨论)实际上允许通过无形中增加额外的维度可以使用许多线性化非线性问题,使非线性问题线性可分。