前言
机器学习需要深厚的数学基础,矩阵、统计、优化,这些都是基本功。勿在浮沙筑高台!所以在本文中将总结学习统计基础知识,夯实基础!
正态分布
正态分布在机器学习中有着重要的应用,在数学上有这样一个结论:根据中心极限定理,多个随机变量之和服从正态分布。根据这个结论,在误差分析时,
可以认为所产生的误差是多个独立同分布误差的叠加,因此最终的误差服从正态分布。
- 单变量正态分布
N(x|μ,σ2)=1(2πσ2)12exp{?12(x?μ)2}
其中,E(x)=μ,
var(x)=σ2. - 多变量正态分布
N(X|μ,Σ)=1(2π)D21|Σ|12exp{?12(X?μ)TΣ?1(X?μ)}
其中,E(X)=μ,
var(X)=Σ,Σ是n阶对称正定矩阵。
而Σ是对称矩阵,所以存在正交矩阵T(T′=T?1),使得T′ΣT=Λ,
其中Λ是对角阵,其对角线上的元素λ1,λ2,...,λn是Σ的特征根。因为Σ是正定的,故λ1,λ2,...,λn都是正的。 - 高斯条件分布
对于联合分布N(X|μ,Σ),
Λ=Σ?1,其中
X=(xaxb),μ=(μaμb)
Σ=(ΣaaΣbaΣabΣbb),Λ=(ΛaaΛbaΛabΛbb)
则条件分布的概率为
p(Xa|Xb)=N(X|μa|b,Λ?1aa)
μa|b=μa?Λ?1aaΛab(Xb?Xa)
边际分布的概率为
p(Xa)=N(Xa|μa,Σaa)
- 若X服从N(μ,Σ),则Y=AX+b服从N(Aμ+b,AΣA′)
- 混合高斯分布
高斯分布是一个单峰模型,其对于多峰模型的描述显然是不够的,所以引入了混合高斯分布,即多个高斯分布的凸组合
p(x)=Σk=1KπkN(x|μk,Σk)
其中,Σk=1Kπk=1,0≤πk≤1