绪论-频率派vs贝叶斯派
\(X\) : data
\[\begin{equation}
\begin{aligned}
X=(x_{1}\quad x_{2}\quad \cdots\quad X_{N})^{T}_{N \times p} \ =\left(\begin{array}{cccc}x_{1} & x_{12} & \cdots & x_{1 p} \\ x_{11} & x_{22} & \cdots & x_{2 p} \\ \vdots & & & \\ x_{m} & x_{N 2} & \cdots & x_{n p}\end{array}\right)_{N \times p}
\end{aligned}
\end{equation}
\]
\(\theta\):parameters
\(x \sim p(x|\theta)\)
频率派
认为$ \theta$ 是未知的常量,\(x\) 是随机变\(\quad r.v.\)
\[\theta_{MLE}= arg\max_{\theta} \log P(x|\theta)
\]
其中:
\[L(\theta) = \log P(x|\theta)
\]
\[x_{i} \sim^{iid} p(x|\theta)
\]
\[P(x|\theta) = \prod_{i}^{N} p(x_{i}|\theta) \log P(x|\theta) = \sum_{i}^{N} p(x_i | \theta)
\]
贝叶斯派
认为 \(\theta\) 是一个变量 \(r.v.\),并且服从一定的分布 \(\theta \sim p(\theta)\) 一般情况下 把 \(p(\theta)\) 称为先验
贝叶斯定理
\[P(\theta|X) = \frac{P(X|\theta) P(\theta)}{P(X)}
\]
其中
\(P(\theta|X)\) 为后验概率
\(p(\theta)\) 为先验概率
\(P(X)= \int_{\theta} P(X|\theta)P(\theta)\)
\(P(X|\theta)\) 中的 \(\theta\) 为 likelihood
(似然估计)
MAP : 最大后验概率估计
\[\begin{aligned}
\theta_{MAP} = \arg \max_{\theta} P(\theta|X)\\propto \arg \max P(X|\theta) P(\theta)
\end{aligned}
\]
贝叶斯估计
\[p(\theta|x) = \frac{p(x|\theta)p(\theta)}{\int_{\theta}p(x|\theta)p(\theta)d\theta}
\]
贝叶斯预测
样本数据 \(X\)
需要预测数据 \(\widehat{x}\)
其中的桥梁\(\quad \theta\)
\[\begin{equation}
\begin{split}
p(\widehat{x}|X) = \int_{\theta}p(\widehat{x},\theta|X)d\theta \= \int_{\theta}p(\widehat{x}|\theta)p(\theta|X)d\theta
\end{split}
\end{equation}
\]
绪论-频率派vs贝叶斯派
原文:https://www.cnblogs.com/nightamber/p/12741551.html