为什么矢量归一化可以提高聚类和分类的准确性?(Why vector normalization ca

2019-08-19 04:20发布

它在Mahout中的行动描述的正常化可以稍微提高精度。 任何人能解释的原因,谢谢!

Answer 1:

标准化并不总是需要,但很少伤害。

一些例子:

K-方式 :

K均值聚类是在空间的所有方向“各向同性”,因此往往会产生更多或更少的轮(而不是细长的)集群。 在这种情况下离开方差不等,相当于把更多的重量上与变量方差较小。

实施例在Matlab:

X = [randn(100,2)+ones(100,2);...
     randn(100,2)-ones(100,2)];

% Introduce denormalization
% X(:, 2) = X(:, 2) * 1000 + 500;

opts = statset('Display','final');

[idx,ctrs] = kmeans(X,2,...
                    'Distance','city',...
                    'Replicates',5,...
                    'Options',opts);

plot(X(idx==1,1),X(idx==1,2),'r.','MarkerSize',12)
hold on
plot(X(idx==2,1),X(idx==2,2),'b.','MarkerSize',12)
plot(ctrs(:,1),ctrs(:,2),'kx',...
     'MarkerSize',12,'LineWidth',2)
plot(ctrs(:,1),ctrs(:,2),'ko',...
     'MarkerSize',12,'LineWidth',2)
legend('Cluster 1','Cluster 2','Centroids',...
       'Location','NW')
title('K-means with normalization')

(FYI: 我怎样才能检测是否我的数据集集群形式(即,形成一个单一集群 )

分布式集群 :

对比分析表明,该分布式聚类结果依赖于归一化过程的类型。

人工神经网络(输入) :

如果输入变量的线性组合,如在MLP的话,那是很少严格要规范投入,至少在理论上。 其原因是,输入向量的任何重新缩放可以通过改变相应的权重和偏置,离开你具有完全相同的输出作为以前具有能够有效地复原。 不过,也有各种各样的实际理由标准化的投入可以使训练速度更快,减少陷入局部最优的机会。 此外,权衰减和贝叶斯估计可以更方便地使用标准化的投入来完成。

人工神经网络(输入/输出)

如果你做任何的这些东西带给你的数据吗? 答案是,这取决于。

标准化输入或目标变量,往往使培训过程中通过改善数值条件更好的表现(见ftp://ftp.sas.com/pub/neural/illcond/illcond.html )的优化问题,并确保各种默认涉及初始化和终止值是合适的。 标准化的目标也可以影响目标函数。

案件标准化应谨慎,因为它丢弃的信息接洽。 如果这些信息是不相关的,那么规范的情况下可以说是相当有帮助的。 如果这些信息是非常重要的,那么规范的情况下可能是灾难性的。


有趣的是,改变测量单元可以甚至导致一个看到一个非常不同的聚类结构: 考夫曼,伦纳德和Peter J. Rousseeuw ..“查找组数据:介绍聚类分析”。 (2005年)。

在一些应用中,改变测量单元可以甚至导致一个看到一个非常不同的聚类结构。 在另一方面,当高度以英尺一个表示获得表4和图4,其中明显的簇现在{A,C}和{B,d}。 因为每个个体已经接受另一个伴侣这个分区是从所述第一完全不同。 (图4,如果将年龄已在天被测量已被平坦化,甚至更多。)

为了避免对测量单元的选择这种依赖性,一个具有标准化的数据的选项。 该功能可将原始测量到无量纲变量。

考夫曼等人。 一些有趣的注意事项(第11页)继续说:

从哲学的角度来看,标准化并没有真正解决问题。 事实上,计量单位的选择产生了变量的相对权重。 表达在更小的单元的变量将导致更大范围的该变量,则这将对所得到的结构具有大的影响。 在另一方面,通过规范人们试图让所有的变量相同的权重,实现客观的希望。 因此,它可以通过谁拥有的先验知识从业者使用。 但是,它很可能是一些变量比其他内在更重要在一个特定的应用程序,然后权重的分配应根据主题知识(见,例如,Abrahamowicz,1985)。 在另一方面,人们一直在试图设计出集群技术是独立变量(弗里德曼和鲁宾,1967年)的规模。 Hardy和Rasson(1982)的提议是用于搜索的簇的凸包的总体积最小化的分区。 原则上这种方法是不变的相对于该数据的线性变换,但不幸的是其执行不存在算法(除了被限制为两个维度的近似)。 因此,标准化的困境目前出现不可避免的,在这本书中描述的程序留下的选择取决于用户。



Answer 2:

其背后的原因是,这样的成绩的方差通过规范化调整不同的变量有时测量的性质不同。 例如在这样一个时代(X)与一组儿童的体重(Y)相比,年龄可以从一个到10,如果你不正常化的图形会产生两个非常重从10磅到100。怪异的长椭圆形到图形的右侧,因为这两个尺度需要去形成一个以100正火会给两个轴的1到100的规模hecnce图形将显示更有意义的集群。



文章来源: Why vector normalization can improve the accuracy of clustering and classification?