均值:描述的是样本集合的中间点。
方差:描述的是样本集合的各个样本点到均值的距离之平均,一般是用来描述一维数据的。
协方差:
如下式:
方差与协方差的关系
方差是用来度量单个变量 “ 自身变异”大小的总体参数,方差越大表明该变量的变异越大
协方差是用来度量两个变量之间 “协同变异”大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对值越大,则二个变量相互影响越大。
协方差矩阵:
如果数据是3维,那么协方差矩阵是:
特征值与特征向量
线性变化:
线性变换(线性映射)是在作用于两个向量空间之间的函数,它保持向量加法和标量乘法的运算,从一个向量空间变化到另一个向量空间。实际上线性变换表现出来的就是一个矩阵。
特征值和特征向量是一体的概念:
对于一个给定的线性变换(矩阵A),它的特征向量
ξ
经过这个线性变换之后,得到的新向量仍然与原来的ξ
保持在同一條直線上,但其长度也许會改变。一个特征向量的长度在该线性变换下缩放的比例(λ)称为其特征值(本征值)。
数学描述:Aξ=λξ
在线性变换A
的作用下,向量ξ
仅仅在尺度上变为原来的λ
倍。称ξ
是线性变换A
的一个特征向量,λ
是对应的特征值。
顾名思义,特征值和特征向量表达了一个线性变换的特征。在物理意义上,一个高维空间的线性变换可以想象是在对一个向量在各个方向上进行了不同程度的变换,而特征向量之间是线性无关的,它们对应了最主要的变换方向,同时特征值表达了相应的变换程度。
具体的说,求特征向量,就是把矩阵A所代表的空间进行正交分解,使得A的向量集合可以表示为每个向量a在各个特征向量上的投影长度。我们通常求特征值和特征向量即为求出这个矩阵能使哪些向量只发生拉伸,而方向不发生变化,观察其发生拉伸的程度。这样做的意义在于,看清一个矩阵在哪些方面能产生最大的分散度(scatter),减少重叠,意味着更多的信息被保留下来。
Referee:
来源:https://www.cnblogs.com/fuleying/p/4462850.html
原文:https://www.cnblogs.com/rgxx/p/11938647.html