学习先验概率分布:
\[P(Y=c_k)\]
学习条件概率分布:
\[P(X=x|Y=c_k)\]
于是学习到了联合概率分布\(P(X,Y)\),所以是生成模型
条件独立性假设
\(\begin{align*}P(X=x|Y=c_k)=&P(X^{(1)}=x^{(1)},\cdots X^{(n)}=x^{(n)}|Y=c_k)\\=&\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_k)\end{align*}\)
想法简单,牺牲分类准确率
后验概率
\[\begin{align*}P(Y=c_m|X=x)=\frac{P(X=x|Y=c_m)P(Y=c_m)}{\sum_{k}P(Y=c_k)P(X=x|Y=c_k)} \end{align*}\]
\[y=f(x)=\underset{c_m}{argmax}P(Y=c_m|X=x)\]
\[y=\underset{c_m}{argmax} P(Y=c_m)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_m)\]
最大化后验概率等价于期望风险最小化
\(\begin{equation}L(Y,f(x))= \left\{ \begin{aligned}1,&Y\neq f(x)\\0,&Y=f(x)\end{aligned}\right. \end{equation}\)
\(R_{exp}(f) = E[L(Y,f(x))]\)
由于是对P(X,Y)的联合概率求期望,转化成条件期望
\(R_{exp}(f) = E_X \sum_{k=1}^{K}[L(c_k,f(x))]P(c_k|X)\)
为了使期望风险最小,对于每个\(X=x\)
\[\begin{align*}f(x) = &\underset{y\in Y}{argmin}\sum_{k=1}^{K}L(x_k,y)P(c_k|X=x) \\=&\underset{y\in Y}{argmin}\sum_{k=1}^{K}P(y\neq c_k|X=x) \\=& \underset{y\in Y}{argmin}(1-P(y=c_k|X=x) ) \\=& \underset{y\in Y}{argmax}P(y=c_k|X=x)\end{align*} \]
所以
\[f(x)=\underset{c_k}{argmax}P(c_k|X=x)\]
\[P(Y=c_k) = \frac{\sum_{i=1}^{N}I(y_i=c_k)}{N}\]
\[P(X^{(j)}=x^{(jl)}|Y=c_k) = \frac{\sum_{i=1}^{N}I(X_i^{(j)}=x^{(jl)},y_i=c_k)}{\sum_{i=1}^N I(Y=c_k)}\]
\(X^{(jl)}\)表示第\(j\)个属性的第\(l\)的可能的取值
极大似然可能会出现概率为0
\[P_\lambda(X^{(j)}=x^{(jl)}|Y=c_k) = \frac{\sum_{i=1}^{N}I(X_i^{(j)}=x^{(jl)},y_i=c_k)+\lambda}{\sum_{i=1}^N I(Y=c_k)+S_j\lambda}\]
\(S_j\)是第\(j\)个属性的可能取值的个数
\[P_\lambda(Y=c_k) = \frac{\sum_{i=1}^{N}I(y_i=c_k)+\lambda}{N+K\lambda}\]
原文:https://www.cnblogs.com/Lzqayx/p/12163107.html