(1)使得数据集更易使用
(2)降低算法的计算开销
(3)去除噪声
(4)使得结果容易理解
常用的降维技术:
(1)主成分分析(PCA)
在因子分析中,假设在观察数据的生成中有一些观察不到的隐变量;假设观察数据是这些隐变量和某些噪声的线性组合;那么隐变量的数据可能比观察数据的数目少,也就是说通过找到隐变量就可以实现数据的降维。
(3)独立成分分析(ICA)
ICA假设数据是从N个数据源生成的,这一点和因子分析有些类似。假设数据为多个数据源的混合观察结果,这些数据源之间在统计上是相互独立的,而在PCA中只假设数据是不相关的。同因子分析一样,如果数据源的数目少于观察数据的数目,则可以实现降维过程。
本篇以下内容主要介绍PCA。
优点:降低数据的复杂性,识别最重要的多个特征。
缺点:不一定需要,且可能损失有用信息。
适用数据:数值型
1、移动坐标轴
PCA对数据坐标进行旋转,旋转过程取决于数据本身。
第一条坐标轴旋转到覆盖数据的最大方差位置,数据的最大方差给出了数据的最重要的信息。
第二条坐标轴假设其与第一条正交,并将其旋转到覆盖数据次大差异性的坐标轴。
通过PCA进行降维处理,我们可以同时获得SVM和决策树的优点:一方面得到了和决策树一样简单的分类器,同时分类间隔和SVM一样好。
通过协方差矩阵及其特征值分析,可以求得主成分的值。
2、python实现PCA
将数据转换成前N个主成分的伪码大致如下:
https://www.cnblogs.com/zy230530/p/7074215.html
特征值和特征向量的意义:
原文:https://www.cnblogs.com/zhenpengwang/p/10933522.html