1.LDA主题模型
给定先验概率参数αβ,主题混合参数θ,集合主题z,集合词w的联合分布为
(1)
2.variational inference
1>variational distribution
variational inference algorithm 介绍的variational 分布:
(3)
是作为后验概率p(θ, z, w | α, β)的代替。variational分布的参数γ和φ通过求解最优化过程求得。
2>一个document的log似然函数,利用Jensen不等式
(4)
Thus we see that Jensen’s inequality provides us with a lower bound on the log likelihood for an arbitrary variational distribution q(θ,z | γ,φ)
公式右端用L(γ,φ; α,β)代表,引入了γ,φ参数,多了vairitional分布和the true posterior分布的偏离,
就是KL divergence:
(5)
最大化L(γ,φ; α,β)下界,等价于最小化变量后验概率和真实的后验概率的KL divergence。代入(4)(1)(3)得出
(6)
γ,α,β所有参数,都是通过log似然函数求偏导数得出
参考:David Blei
word 版本下载
LDA variational inference note, LDA 参数求解
原文:http://www.cnblogs.com/zlreco/p/LDAvr.html