逻辑斯谛回归模型和最大熵模型都是对数线性模型。
设\(X\)是随机变量
\[
p(Y=1|x)=\frac{exp(w\cdot x+b)}{1+exp(w\cdot x+b)}
\]
对于二分类有
\[
P(y|x)=y^{h_{\theta}(x)}(1-y)^{(1-h_{\theta}(x))}
\]
对数损失函数
\[ L(Y,P(Y|X)) = -log(P(Y|X)) \]
\[
cost(h_{\theta}(x),y) = -log(p(y|x))
\]
\(L\) 越小,说明 \(P(Y|X)\) 越大。
所以逻辑斯谛回归的损失函数如下:
\[ \operatorname{L}\left(h_{\theta}(x), y\right)=\frac{1}{m}\sum_{i=1}^{m}-y_{i} \log \left(h_{\theta}(x)\right)-\left(1-y_{i}\right) \log \left(1-h_{\theta}(x)\right) \]
\[ J(w) = -\frac{1}{m}\sum^m_{i=1}{y_i(w\cdot x_i)-log(1+exp(w\cdot x_i)} \]
使用梯度下降法:
\[
\frac{\delta}{\delta_{\theta_{j}}} J(w)=-\frac{1}{m}\sum^m_{i=1}y_ix_i-\frac{x_iexp(wx_i)}{1+exp(wx_i)}
\]
\[
w = w-\alpha\frac{\delta}{\delta_{\theta_{j}}} J(w)
\]
原文:https://www.cnblogs.com/curtisxiao/p/10878979.html