PCA

主成分分析(PCA,principal components analysis)是将有多个相关特征的数据集投影到相关特征较少的坐标系上。这些新的、不相关的特征叫主成分。主成分能替代原始特征空间的坐标系,需要的特征少、捕捉的变化多。
主成分分析是无监督算法。主成分按可以解释的方差来排序,第一个主成分最能解释数据的方差,第二个其次。

PCA过程:
1. 创建数据集的协方差矩阵
2. 计算协方差矩阵的特征值
3. 保留前k个特征值(按特征值降序排列)
4. 用保留的特征向量转换新的数据点。

LDA

LDA是特征变换算法,也是有监督分类器。和PCA一样,LDA的目标是提取一个新的坐标系,将原始数据集投影到一个低维空间中。和PCA的主要区别在于,LDA不会专注于数据的方差,而是优化低维空间,以获得最佳的类别可分性。新的坐标系在为分类模型查找决策边界时更有用,LDA非常适合用于构建分类流水线。

工作原理:
1. 计算每个类别的均值向量
2. 计算类内和类间的散布矩阵
3. 计算 S_w^{-1} S_b 的特征值和特征向量
4. 降序排列特征值,保留前k个特征向量
5. 使用前几个特征向量将数据投影到新空间

PCA与LDA的区别

1. LDA是有监督的降维方法,降维过程中可以使用类别的先验知识经验,而PCA不行。
2. LDA选择分类性能最好的投影方向,而PCA选择最大方差的投影方向,因此LDA有过拟合的风险。
3. LDA最多能降到N−1的维数,如果降维维度大于N−1,则不能使用LDA,而PCA没有这个限制 。N-1表示矩阵的秩的最大个数。
4. 当样本分类信息依赖均值时LDA效果较好;依赖方差的时候PCA效果较好。
5. PCA 和 LDA 都是线性转换方法,只能捕捉数据中的线性关系,难以处理非线性结构的数据。