二元变量表示只可能在两种可能值之中取值,若有\(K\)个互斥状态,则可以用\(1-of-K\)表示法。
取\(K=6\),则\(\boldsymbol{x},\boldsymbol{\mu}\)可以表示成:
\[
\boldsymbol{x}=(0,0,1,0,0,0)^T\\boldsymbol{\mu}=(\mu_1,...,\mu_k)^T
\]
此时\(\boldsymbol{x}\)的分布为(\(x_k\)表示\(\boldsymbol{x}\)中第\(k\)项):
\[
p(\boldsymbol{x}|\boldsymbol{\mu})=\prod_k \mu_k^{x_k}
\]
可以把它看作是伯努利分布对于多个输出的推广,并且这个分布也是归一化的:
\[
\sum_kp(\boldsymbol{x}|\boldsymbol{\mu})=\sum_k\mu_k=1\E(\boldsymbol{x}|\boldsymbol{\mu})=\sum_xp(\boldsymbol{x}|\boldsymbol{\mu})\boldsymbol{x}=\boldsymbol{\mu}
\]
当有N个独立观测值\(\boldsymbol{x}_1,...,\boldsymbol{x}_N\)的数据集\(D\)时,对应的似然函数为:
\[
p(D|\boldsymbol{\mu})=\prod_n\prod_k\mu_k^{x_{nk}}=\prod_k\mu_k^{\sum x_{nk}}=\prod_k\mu_k^{m_k}
\]
其中\(m_k = \sum x_{nk}\),表示观测\(x_k=1\)的个数,叫做这个分布的充分统计量(sufficient statistics)。
由于有限制条件\(\sum \mu_k =1\),所以在求最大似然函数时要用拉格朗日算子法(求出\(\mu_k\)后代入限制条件里得到\(\lambda\)):
\[
\max \sum_k m_k\ln \mu_k+\lambda(\sum_k\mu_k-1)\\mu_{k}=-\frac{m_k}{\lambda},\ \ \ \lambda = -N\\mu_k^{MLE}=\frac{m_k}{N}
\]
本质上与伯努利分布一样。
考虑\(m_1,...,m_k\)在参数\(\boldsymbol{\mu}\)和观察总数\(N\)的条件下的联合分布,即多项式分布:
\[
Mult(m_1,...m_k)|\boldsymbol{\mu},N)=\dbinom{N}{\prod_k m_k}\prod_k\mu_k^{m_k}
\]
\(\dbinom{N}{\prod_k m_k}\)表示相同的N个物体分成\(k\)组,每组大小为\(m_k\)的方案数量。
\[
\dbinom{N}{\prod_k m_k}=\frac{N!}{m_1!...m_K!}\\]
满足条件:\(\sum_k m_k = N\)。
狄利克雷分布是多项式分布的共轭先验分布,也是将Beta分布推广到高维空间的形式。
观察多项式分布可知共轭先验为:
\[
p(\boldsymbol{\mu}|\boldsymbol{\alpha}) \propto \prod_{k=1}^K \mu_k^{\alpha_k-1}
\]
\(\boldsymbol{\alpha}\)为分布的参数,为\((\alpha_1,...,\alpha_K)^T\),\(\mu_k\in[0,1]\),且和为1。由于加和的限制,\({\mu_k}\)空间上的分布被限制在K-1维的单纯形中。
狄利克雷分布的归一化形式为:
\[
Dir(\boldsymbol{\mu}|\boldsymbol{\alpha}) =\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)...\Gamma(\alpha_k)} \prod_{k=1}^K \mu_k^{\alpha_k-1}
\]
其中\(\alpha_0=\sum_k\alpha_k\)。
我们用多项式分布当作似然函数乘以先验后得到后验分布:
\[
p(\boldsymbol{\mu}|D,\boldsymbol{\alpha})\propto p(D|\boldsymbol{\mu})p(\boldsymbol{\mu}|\boldsymbol{\alpha})\propto \prod_k \mu_k^{\alpha_k+m_k-1}
\]
可以看到后验分布形式与先验相同,狄利克雷分布分布确实为多项式分布的共轭先验。确定归一化系数后:
\[
p(\boldsymbol{\mu}|D,\boldsymbol{\alpha})=\frac{\Gamma(\alpha_0+N)}{\Gamma(\alpha_1+m_1)...\Gamma(\alpha_k+m_k)}\prod_k \mu_k^{\alpha_k+m_k-1}
\]
由于高斯分布内容过多,另写一章。
原文:https://www.cnblogs.com/LvBaiYang/p/12236935.html