在我们平时看NBA的时候,可能我们只关心球员是否能把球打进,而不太关心这个球的颜色,品牌,只要有3D效果,看到球员扣篮的动作就可以了,比如下图:

如果我们直接对篮球照片进行几百万像素的处理,会有几千维甚至几万维的数据要计算,计算量很大。而往往我们只需要大概勾勒出篮球的大概形状就可以描述问题,所以必须对此类数据降维,这样会使处理数据更加轻松。这个在人脸识别中必须要降维,因为我们在做特征提取的时候几万维的数据很难全部有效计算,PCA技术作为四大降维技术之一对于此类问题有很好的处理效果。
一 前瞻知识
向量的内积,矩阵的意义,矩阵特征值,正交基,方差,协方差。
二 降维的概念
降维通俗地说,就是把高维数据降成低维数据。因为对于机器学习算法,处理上万级别维数的数据是家常便饭的事情,但是处理是能处理,这会带来巨大的时间开销。影响算法的时间复杂度,降维就是在减少维数的前提下,尽量保证数据的完整性。这里需要说明的是,降维不是单纯的删除掉某些特征值,而是把高维数据通过一定的矩阵变换映射到低维空间,现在我们举一个例子。对于A(3,4),B(5,6),C(3,5)D(-1,2)四个点,如下图所示:
我们现在要把他投影在一维坐标上,我想大部分人都是想投影在x轴上,如图:
等等,不是应该四个点吗,怎么映射变成了三个点了,如果现实是这样,那岂不是丢失很多数据?那么我们的目标现在就是找到一条直线,让这四个点都能在投影在这个直线上,那么数据就不会缺少,而且让各个点之间的距离最大化。这个有点像我之前说的LDA,

