使用二进制数据的主成分分析(PCA)(Using Principal Components Anal

2019-08-03 01:45发布

我使用的二进制属性PCA,以减少我的问题的尺寸(属性)。 初始尺寸为592和PCA之后的尺寸是497我以前使用PCA,上数值属性在其他的问题,它设法减少在一个更大的程度上(在初始尺寸的一半)的尺寸。 我相信,二进制属性减少PCA的力量,但我不知道为什么。 你能解释一下我为什么PCA不起作用在数值数据一样好。

谢谢。

Answer 1:

0/1数据的主要成分可以缓慢或迅速脱落,和连续数据的太电脑 - 这取决于数据。 你能描述一下你的数据吗?

下面的图片旨在比较连续图像数据的PC机对同一数据的PC机量化为0/1:在这种情况下,没有定论。

看看PCA为越来越趋近于一个大的矩阵的方式,
先用一个术语:近似A〜UVÇT,C [UI VJ]。
认为这是一位,说10K×500:U 10K长,V 500长。 顶行为c U1 V,第二行为c U2配...所有行均正比于V.同样最左列为cüV1 ...所有列均正比于U.
但是,如果所有的行相似(成比例关系),他们无法获得与附近的行或列0100010101的A MATIX ...
随着越来越多的方面,A〜C1 U1 V1 T + C2 U2 V2 T + ...,我们可以得到接近答:越小越高C I,速度越快。(当然,所有的500项重建一个完全相同,以内舍入误差。)

顶行是“海伦”,公知的512×512矩阵,与1-术语和10项SVD的近似。 最下面一行是莉娜离散到0/1,再以1项和10项。 我认为0/1莉娜就更糟了 - 评论,任何人吗?

(UV T也是写入ü⊗V,被称为“成对层”或“外积”)。

(维基百科的文章奇异值分解和低阶近似 。是位数学重大卫奥斯汀的AMS列, 我们建议奇异值分解给出了SVD / PCA一些直觉-强烈推荐)



文章来源: Using Principal Components Analysis (PCA) on binary data
标签: pca svd