首页 > 其他 > 详细

机器学习之概率与统计(二)- 多元随机变量及其分布

时间:2017-10-07 21:54:16      阅读:941      评论:0      收藏:0      [点我收藏+]

        目录

一、   随机向量及其分布... 2

1.多元向量的联合分布... 2

1.1离散情况... 2

1.2连续情况... 2

2.多元向量的边缘分布... 2

2.1离散情况... 2

2.2连续情况... 2

3.多元向量的条件分布... 2

4.贝叶斯规则... 3

5.多元向量独立... 3

6.多元向量条件独立... 3

7.协方差与相关系数... 3

8.方差-协方差矩阵... 4

9.信息论... 4

9.1机器学习原则... 4

9.2... 4

9.3 KL散度(Kullback-Leibler divergencKL divergence... 5

9.4互信息... 5

9.5最大信息系数(maximal information coefficientMIC... 5

二、多元正态分布... 6

1.多元正态分布(multivariate normal, MVN... 6

2.协方差的特征值分解... 6

3.MVN的白化... 6

4.高斯判别分析GDA... 6

5.决策边界... 6

三、概率图模型... 7

1.有向... 7

2.无向图... 7

3.特殊的概率图模型... 7

3.1朴素贝叶斯分类器(Naive Bayes Classifier, NBC... 7

3.2链规则... 7

3.3 Markov... 7

3.4转移矩阵... 8

3.5隐马尔科夫模型(HMM... 8

3.6 Markov随机场(MRF... 8

3.7 条件随机场(CRF... 9

 

 

 

一、随机向量及其分布

多元随机向量的分布:在多个随机变量组成的向量上定义的分布。

1.多元向量的联合分布

1.1离散情况

假设D维随机向量(X1, …, XD),其中Xj为离散型随机变量,则定义联合概率质量函数(pmf)为:

       技术分享

联合概率分布函数(CDF)为:

       技术分享

1.2连续情况

假设D维随机向量(X1, …, XD),其中Xj为连续型随机变量,则定义联合概率密度函数(pdf)为:

              技术分享

       其中:

              技术分享

       联合概率分布函数(CDF)为:

              技术分享

       对任意集合:

              技术分享

 

 

2.多元向量的边缘分布

2.1离散情况

假设D维离散型随机向量(X1, …, XD)有联合质量函数p(X1, …, XD),则定义Xj的边缘概率质量函数:

              技术分享

2.2连续情况

       假设D维连续型随机向量(X1, …, XD)有联合质量函数p(X1, …, XD),则定义Xj的边缘概率质量函数:

              技术分享

3.多元向量的条件分布

(1)   例如,对二维随机变量(X,Y), p(y) 0时,给定Y=yX的条件分布为:

技术分享

              即:

                     技术分享

(2)   链规则(Chain Rule

例如有3个随机变量时:

  技术分享

 

 

或者:

  技术分享

一般地,

技术分享

4.贝叶斯规则

    (1)   全概率公式

如果Y可以取值y1, …, yKxX的一个取值,则:

技术分享

(2)   贝叶斯规则:

技术分享

5.多元向量独立

若对向量中XY中所有的x, y,有:

       技术分享

或者:

       技术分享

则称XY独立,记作:XY

6.多元向量条件独立

若对向量中XYZ中所有的x, y, z,有:

技术分享

       或者

              技术分享

则称XY条件独立(即有条件的独立),记作:XY | Z

7.协方差与相关系数

如果随机变量之间不独立,可用协方差/相关系数来刻画两个随机变量之间关系强弱:

技术分享

性质:

(1)    

协方差满足:

        技术分享

相关系数满足:

        技术分享

(2)   如果XY独立,则:

技术分享

技术分享

(3)   协方差:

对任意两个随机变量XY,有:

        技术分享

推广到多个随机变量:

技术分享

8.方差-协方差矩阵

令随机向量X的形式为:X = (X1, …, XD)T,则方差-协方差矩阵定义为:

技术分享

当各个成分变量独立时,协方差矩阵是一个对角矩阵。

9.信息论

9.1  机器学习原则

1)选择最简单的、能表示数据产生规律的模型

 

2)模型选择:最小描述长度准则

3)特征选择:选择与目标最相关的特征

9.2  

1)熵是一种不确定度的度量

2)定义:

       假设随机变量X的分布为p,则该随机变量的熵定义为:

       技术分享

9.3 KL散度Kullback-Leibler divergencKL divergence

       KL散度,又称相对熵(relative entropy):一种度量两个分布pq之间的差异的方法:

              技术分享

       或者:

              技术分享

       其中H(p, q)称为交叉熵:

              技术分享

9.4互信息

       互信息:度量联合分布p(X, Y)和因式分解形式p(X)P( Y)之间的相似度:

       技术分享

       或者:

         技术分享

       其中H(X|Y)H(Y|X)称为条件熵(表示观测到XY的不确定性减少):

              技术分享

       性质:

              1)互信息不小于0

                            技术分享

2)当且仅当p(X, Y)= p(X)P( Y),即X Y独立时,互信息为0.

3)在特征选择时,可以通过计算特征与目标之间的互信息,选择与目标互信息最大的那些特征,抛弃与目标关系不大的特征。

9.5最大信息系数maximal information coefficientMIC

       1)连续变量的互信息,需先离散化,再计算互信息。

       2)最大信息系数(MIC):以最优的方式离散化,并将互信息取值转换成到[0,1]

                 技术分享 

                     技术分享

              其中I(X(G);Y(G))为某种离散方式, 箱子大小B建议为N0.6N为样本数目。

 

二、多元正态分布

1.   多元正态分布(multivariate normal, MVN

多元正太分布的一般形式

                 技术分享

        其中,

               技术分享

        期望:μ=E(x)  ,  协方差矩阵:? = E( (x-μ)T(x-μ) ),即可以写成方差-协方差矩阵的形式。

  协方差矩阵有D x (D-1)/2个独立元素,是正定矩阵,

  协方差矩阵的逆 = 精度

 

2.   协方差的特征值分解

协方差矩阵的特征值分解:

        技术分享

Mahalanobis 距离(等于在翻转坐标系中的欧氏距离)

技术分享

其中,yi = uiT (x -μ)

3.   MVN的白化

假设x随机向量服从多元正态分布:

        技术分享

则令y的分布为:

        技术分享

y已经被白化了,即已经服从了标准正态分布:N(0I)

4.   高斯判别分析GDA

在产生式分类器中:

         技术分享

使用高斯分布作为类条件分布:

        技术分享

通过分析这个高斯分布来确定最佳的分布的方法,叫高斯判别分析(GDA)。

例如,当协方差矩阵为对角阵时,为朴素贝叶斯分类器(各特征独立)。

5.   决策边界

(1)   当所有都相等时,判别边界为线性,称为线性判别分析(Linear Discriminant Analysis, LDA

(2)   一般情况下,判别边界为二次曲线

(3)   协方差决定了模型的复杂度(参数的数目)

 

三、概率图模型

利用随机变量之间的条件独立关系,可以将随机向量的联合分布分解为一些因式的乘积,得到简洁的概率表示。

1.有向图

有向图模型(directed graphical modelsDGMs)使用带有有向边的图,用条件概率分布来表示分解:每个随机变量xi都包含着一个影响因子,这些影响因子被称为xi的父节点,记为Pa (xi),则有向图模型表示概率分解:

技术分享

2.无向图

无向图模型(undirected graphical modelUGM):使用带有无向边的图,将联合概率分解成一组函数的乘积。

图中任何满足两两之间有边连接的顶点的集合被称为团(clip),每个团Ci都伴随着一个因子?iCi, 并且这些团必须满足:

1)每个因子的输出都必须是非负的

2)但不像概率分布中那样要求因子的和/积分为1

    则随机向量的联合概率可以分解为:所有这些因子的乘积:

技术分享

其中归一化常数Z被定义为函数乘积的所有状态的求和或积分,使得这些乘积的求和为1(即使得p(x)为一个合法的概率分布)。

3.特殊的概率图模型

3.1 朴素贝叶斯分类器(Naive Bayes Classifier, NBC

1)原理:假设各维特征在给定类别标签的情况下是条件独立的。

2)假设要进行分类,共有C个类别y∈ 12…, C),每个样本有特征x = (x1, …, xD),则给定类别标签下的条件概率为:

                技术分享

3)进行分类(预测):

              技术分享

3.2链规则

       给定时间长度为T 的序列X1…, XT,则链规则:

            技术分享

即第t时刻的状态Xt只与前t-1个时刻的状态X1:t-1相关。

3.3 Markov

       假设第t时刻的状态Xt只与前一个时刻的状态Xt-1相关,称为一阶Markov假设,得到的联合分布为Markov链(或Markov模型):

       技术分享

3.4转移矩阵

       Xt(1,2,…,k)为离散时,则条件分布p(Xt|Xt-1)可表示为一个K x K的矩阵|Aij|,称为转移矩阵,其中:

       技术分享

表示从状态i转移到状态j的概率,也称为叫做随机矩阵。

3.5隐马尔科夫模型(HMM

       如果系统的状态不可见,只能观测到由隐含状态驱动的观测变量,则可用隐马尔可夫模型(Hidden Markov Model, HMM)表示联合概率:

              技术分享

       其中:

其中zt表示第t时刻的隐含状态;

p(Zt|Zt-1)表示转移模型;

p(Xt|Zt)表示观测模型。

3.6 Markov随机场(MRF

1)定义

              随机场可以看成是一组随机变量的集合(这些随机变量之间可能有依赖关系);

              Markov随机场:加了Markov性质限制的随机场,可用无向图表示。

2MRF的参数化

       1

    无向图中节点之间的边没有方向,不能用链规则表示联合概率,而是用图中每个最大团C 的因子的乘积表示:

              技术分享

         其中Z为归一化常数。

2

         或者,使用能量函数表示为:

              技术分享

         其中E(yc)为团簇C中变量相关的能量函数。

       3

              或者,将log势能函数表示为一些函数的线性组合:

                     技术分享

              其中,组合权重为??c为根据变量yc得到的特征。

              log联合分布表示为:

                     技术分享

       称为最大熵模型或log线性模型,在条件随机场(CRF)、(受限)Boltzmann机(RBM)可用此形

式表示联合概率。

3.7 条件随机场(CRF

       条件随机场(Conditional Random FieldCRF)

              给定MRF中的每个随机变量下面还有观测值,则给定观测条件下MRF的分布:

       技术分享

       其中,x为观测集合。

 

 

 

       - tany 2017107日于杭州

机器学习之概率与统计(二)- 多元随机变量及其分布

原文:http://www.cnblogs.com/tan-v/p/7635866.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!