线性代数主要讲矩阵,矩阵就是线性变换,也就是把直线变成直线的几何变换,包括过原点的旋转、镜射、伸缩、推移及其组合。特征向量是对一个线性变换很特殊的向量:只有他们在此变换下可保持方向不变,而对应的特征值就是该向量缩放的比例。最大特征值和对应的特征向量就意味着在该方向上方向不变且缩放比例能达到最大。注意到特征向量天然正交,否则他们在别的特征方向上会发生方向的改变。
在此基础上再来理解PCA降维:样本协方差阵是变量间的相关性度量,在高斯假设下它是协方差的充分统计量,根据对称阵可正交分解,它的最大特征值所对应特征向量的方向,就是对数据正交变换后缩放比例最大的方向,这意味着该方向上信噪比最大,如此就使该数据的第一大方差落在第一个坐标上,依次类推。具体的推导,可以使用拉格朗日乘数法求解变换后数据的方差最小化问题得到。
以上我们易得PCA降维的适用范围是:线性假设意味着变量量纲不同时要非常小心,反过来也说明为啥图像识别该方法甚为有效;高斯假设意味着当样本不符合指数族分布时就是白忙活,因为样本协方差阵实际上只使用了均值和方差,对指数族分布这才是充分统计量(sufficient statistic)。此外还有主成分正交和信噪比很大两个普遍假设。主成分正交的解释是,既然PCA降维相当于找个向量让数据在上面投影方差最大,而求解该优化问题后发现这个向量正是特征向量,而特征向量天然是正交的。信噪比很大是机器学习能够work的理论基础。
应当指出的是,PCA降维的出发点不是分类也不是聚类,它只是对原始数据的一种变换,可以用更少的维度保存最多的信息(数学语言即变换后的数据与原来数据的均方误差最小化)。