本系列是针对于DataWhale学习小组的笔记,从一个对统计学和机器学习理论基础薄弱的初学者角度出发,在小组学习资料的基础上,由浅入深地对知识进行总结和整理,今后有了新的理解可能还会不断完善。由于水平实在有限,不免产生谬误,欢迎读者多多批评指正。如需要转载请与博主联系,谢谢
机器学习中针对分类问题有两类主要的建模方法,分别称为判别模型和生成模型,常见的逻辑回归、线性回归、支持向量机、人工神经网络等模型都属于判别模型,而隐马尔可夫模型、高斯混合模型、受限玻尔兹曼机及今天要讲的朴素贝叶斯均属于生成模型。总的来说,机器学习分类所要实现的目标就是基于有限的训练样本尽可能准确地估计出条件概率P(y|x),但上述两种建模方法在思路和效果上均有所不同。
判别模型:通过训练集构建输入变量x(如西瓜响声是否“清脆”等)与输出变量y(如西瓜是否甜)之间的关系,直接获得条件概率分布P(y|x),然后在新数据集中根据已知的x来预测y的值。
生成模型:先根据训练集构建输入变量x与输出变量y之间的联合概率分布P(x,y),再通过贝叶斯公式推出条件概率分布P(y|x)来进行预测。
贝叶斯决策理论是概率框架下实施决策(在多个可能类别中做出选择)的基本方法。它的核心思路是最小化各类判断失误带来的总体风险。在这里我们主要关注其针对分类任务的决策方法。假设我们的数据最终所属类别有\(Y=\left \{ c_1,c_2\cdots,c_N \right \}\)共N种,设\(λ_{ij}\)为将实际为\(c_j\)的样本错误分类为\(c_i\)带来的损失(在这里我们假设其在判断正确是为0,判断错误时为1),x为一个已知包含某些特征(如颜色=“青绿”,声音=“清脆”等)的样本,我们基于后验概率\(??(??_??|??)\)可以获得将当前样本x分类为\(??_??\)所产生的期望损失,即在样本x上的条件风险。
而要想最小化总体风险,我们实际上就要找到一个最优判断依据(策略)h,使得针对各种特征组合不同的样本x判断时条件风险R均为最小值,当\(λ_{ij}\)为01分布时,最优策略\(h^*\)可写作:
到这里我们发现,正如我们前面所言,分类决策任务的解决最终可以化简为对因变量相对于自变量间的条件概率P(y|x)的估计。
又因为我们前面讲过的,在贝叶斯模型等生成模型中,我们要利用联合分布来计算条件分布,根据大一概率论中讲过的贝叶斯公式,我们可以得出:
在这里我们给已知特征向量x的前提下样本类别为c的条件概率P(c|x)取另一个名字叫做“后验概率”;而不确定样本特征向量x时样本类别为c的概率P(c)称之为“先验概率”;P(x|c)是样本x对于类标记c的类条件概率,或称为“似然”;而P(x)是用于归一化的“证据”因子,它由于与类别无关而在所有策略“后验概率”的计算中都是一样的,可以忽略。
此时估计“后验概率”的任务变成了估计“先验概率”和“似然”,“先验概率”P(c)为样本空间中各类样本所占的比例,根据大数定理,可通过训练集中各类样本出现的频率来估计。但在估计“似然”P(x|c)我们会发现一个问题,当特征向量x中包含的特征数目很多时,由于涉及各属性的联合概率,可能产生组合爆炸的问题(比如西瓜的颜色有5种,声音有2种,外形有3种,则不同特征组合的样本就有30种),利用训练集中有限的样本难以准确地对其分布进行估计。因此我们需要引入极大似然估计的思想来解决这一问题。
估计类条件概率有一种常用的策略就是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。这里我们常用的方法之一是极大似然估计法,即根据实验数据采样来估计概率分布参数。在这里我们暂时忽略推导过程(以后补充。。),令\(D_c\)为训练集D中类别为c的样本集合,假设样本独立同分布,可以得到P(x|c)的概率分布参数\(θ_c\)的极大似然估计为:
参考资料:
原文:https://www.cnblogs.com/liugd-2020/p/12764764.html