当我们要预测值分类 (或分立)的结果,我们使用logistic回归 。 我相信,我们用线性回归也给出预测的输入值的结果的值。
那么,是什么样的两种方法之间的区别?
当我们要预测值分类 (或分立)的结果,我们使用logistic回归 。 我相信,我们用线性回归也给出预测的输入值的结果的值。
那么,是什么样的两种方法之间的区别?
线性回归输出作为概率
人们很容易用线性回归输出概率,但它是一个错误,因为输出可以是负的,且大于1,而概率不能。 作为回归实际上可能产生的概率,可能是小于0,或大于1更大,引入Logistic回归。
来源: http://gerardnico.com/wiki/data_mining/simple_logistic_regression
结果
线性回归,结局(因变量)是连续的。 它可以有可能值无限数量的任何一个。
在逻辑回归,结果(因变量)仅具有的可能值的数量有限。
因变量
当响应变量本质上是绝对的Logistic回归被使用。 例如,是/否,真/假,红/绿/蓝,1档/ 2/3/4,等等。
当你的反应变量是连续的线性回归被使用。 例如,体重,身高,小时数等
方程
线性回归给出的等式是形式Y = MX + C的,意味着方程度1。
然而,逻辑回归给出的等式是形式Y = E X + E的-X
系数解释
线性回归,自变量的系数的解释是相当简单的(即,保持所有其它变量恒定,与此变量的单位增加,因变量预期增加用xxx /减小)。
然而,在logistic回归,取决于家庭(二项分布,泊松分布等)和链路(日志,对数,倒数日志等)使用,解释是不同的。
误差最小化技术
线性回归使用普通最小二乘法,尽量减少错误,并在尽可能适合入境,而回归使用最大似然法的解决办法。
线性回归通常是由该模型的最小二乘误差最小化到数据解决,因此大的误差平方惩罚。
Logistic回归则正好相反。 使用逻辑损失函数产生较大的误差被处罚到一个渐近常数。
考虑范畴线性回归{0,1}成果,看看为什么这是一个问题。 如果你的模型预测的结果是38,当真相是1,你已经没有丢失。 线性回归将尽力减少38,逻辑就不会(多) 2 。
线性回归,结局(因变量)是连续的。 它可以有可能值无限数量的任何一个。 在逻辑回归,结果(因变量)仅具有的可能值的数量有限。
例如,如果X包含平方英尺房屋面积,以及Y包含这些房子的相应的销售价格,你可以用线性回归预测售价为房子大小的函数。 虽然可能售价实际上可能没有任何 ,有一个线性回归模型将选择这么多的可能值。
相反,如果你想预测,根据大小,一套房子是否会出售超过$ 200K,你会使用logistic回归。 可能的输出要么是,房子售价将超过20万$,或没有,房子不会。
我想补充的以前的答案。
线性回归
意在解决预测/对于给定的元素X估计输出值的问题(比如说F(X))。 该预测的结果是一个cotinuous函数,其中值可以是正的或负的。 在这种情况下,你通常有大量的实例 ,并为他们中的每一个输出值的输入数据集。 我们的目标是能够使你能够预测,输出新的不同的/从未见过的元素,以适应一个模型来该数据集。 以下是将直线拟合来设置点的典型例子,但在一般的线性回归可被用来适应更复杂的模型(使用高次多项式度):
解决问题
凌特的回归可以在两种不同的方法来解决:
Logistic回归
是为了解决地方给你必须在N类同一分类的元素分类问题。 典型的例子是,例如给出一个邮件并把它归类为垃圾邮件或没有,或给予车辆找到至极所属类别(汽车,卡车,面包车,等..)。 这基本上输出是一组有限descrete值。
解决问题
Logistic回归问题只能通过梯度下降来解决。 一般所述制剂是非常相似的线性回归的唯一差别是不同的设定功能的使用。 线性回归的假设的形式为:
h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 ..
其中θ是我们试图适应和模型[1,X_1,X_2,..]是输入向量。 在回归的设定功能是不同的:
g(x) = 1 / (1 + e^-x)
此功能有一个很好的性质,基本上将其映射到这是appropiate的classificatin期间处理propababilities范围[0,1]的任何值。 例如在一个二进制分类克(X)情况下可以被解释为概率属于正类。 在这种情况下,通常必须是与该基本上是一个曲线 ,其确定所述不同类之间的间隔的决定边界分开不同的类。 下面是数据集中在两类分离的一个例子。
基本的差别:
线性回归基本上是一个回归模型,这意味着其将给出的函数的非离散/连续输出。 因此,这种做法给人的值。 例如:X是什么F(X)给出
例如,给定不同的因素训练集和属性训练之后,我们可以提供必要的因素,以确定哪些将是资产价格的价格。
逻辑回归是基本上二元分类算法,这意味着这里将谨慎值输出为函数。 例如:对于给定的X如果f(x)的>阈值把它归类为1,否则将其归类为0。
例如,给定一组的脑肿瘤的大小的作为训练数据,我们可以使用大小作为输入,以确定一个或benine恶性肿瘤是否其。 因此这里的输出是离散的0或1。
*这里的功能基本设定功能
他们都在求解解颇为相似,但是正如其他人所说,一个(Logistic回归)是用于预测类“适合”(Y / N或1/0),和其他的(线性回归)是预测一个值。
所以,如果你想,如果你有癌症Y / N(或概率)来预测 - 使用物流。 如果你想知道你将如何多年活 - 用线性回归!
简单地说,线性回归是一个回归算法,其outpus可能的连续和无限值; 逻辑回归被认为是一个二元分类算法,并输出属于标签输入的“概率”(0或1)。
简而言之:线性回归给出连续输出。 即值的范围之间的任何值。 Logistic回归给出了离散输出。 即是/否0/1样的输出。
不能与上述意见同意。 以上说的,还有一些像更差
线性回归,假定残差为正态分布。 在Logistic回归残差需要是独立的,但不是正态分布。
线性回归假定在在响应变量恒定变化的解释变量结果的值的常数的变化。 如果响应变量的值表示概率(在Logistic回归)此假设不成立
GLM(广义线性模型)不承担因变量和自变量之间的线性关系。 然而,它假定链路功能,并在logit模型自变量之间的线性关系。
| Basis | Linear | Logistic |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic | The data is modelled using a straight line. | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required | Not required |
| The independent variable | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist). |
简单地说,如果在线性回归模型多个测试用例到达其远离为Y = 1且y = 0的预测的阈值(比如= 0.5)。 那么在这种情况下,假设将改变,变得worse.Therefore线性回归模型不能用于分类问题。
另一个问题是,如果分类为y = 0和y = 1,H(X)可以是> 1或<0.So我们使用Logistic回归分别为0 <= H(X)<= 1。
Logistic回归的预测一样是绝对的输出用于/不,低/中/高等你已经基本上2种回归二元Logistic回归(是/否,批准/拒登)或者多类Logistic回归(低/中/高,从0-9等数字)
在另一方面,线性回归是,如果因变量(y)的是连续的。 表达式y = mx + c是一个简单的线性回归方程(M =斜率c为y轴截距)。 多元线性回归具有多于1个独立变量(X1,X2,X3 ...等)
回归装置连续变量,线性意味着有y和x之间的线性关系。 EX =您正试图从没有预测的多年经验的薪水。 因此,这里的工资是独立变量(Y)和体验岁的因变量(X)。 Y = B0 + B1 * X1 我们正在努力寻找常数B0和B1的最佳值,这将给我们最佳拟合线的观测数据。 它是线的方程赋予连续值从x = 0到非常大的值。 这条线被称为线性回归模型。
逻辑回归是分类技术的类型。 DNT由长期回归的误导。 在这里,我们预测是否Y = 0或1。
在这里,我们首先需要找到从formuale以下P(Y = 1)(Y的wprobability = 1)给定的x。
Probaibility p由下面formuale与y相关
用Ex =我们可以使患有癌症为1以及具有癌症0的小于50%的机会肿瘤的肿瘤具有大于50%的机会的分类。
这里红色点将被预测为0,而绿色点将被预测为1。
线性回归的结果是连续的,而在逻辑回归,结果仅具有可能的值(离散的)的数量有限。
例如:在一个方案中,x的给定值是在平方英尺然后预测的情节ÿ即率的曲线图的尺寸下的线性回归来。
相反,如果你想预测,根据大小,情节是否会卖30多万卢比,你会使用logistic回归。 可能的输出要么是,该地块将出售30多万卢比,或否。