一、简介
逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。
这里面其实包含了5个点 1:逻辑回归的假设,2:逻辑回归的损失函数,3:逻辑回归的求解方法,4:逻辑回归的目的,5:逻辑回归如何分类。这些问题是考核你对逻辑回归的基本了解。
二、logistic regreesion的假设
假设一: 假设数据服从伯努利分布: $h_\theta\left(x;\theta \right )=p$
假设二: 假设正样本为正的概率是: $p=\frac{1}{1+e^{-\theta^{T} x}}$
所以logistic regression的形式是: $h_\theta\left(x;\theta \right )=\frac{1}{1+e^{-\theta^{T} x}}$
三、损失函数
将二分类的条件概率公式结合起来为:$p=\left(h_\theta\left(x \right) \right)^{y}\left(1-h_\theta\left(x \right) \right)^{1-y}$
然后用最大似然函数作为损失函数: $ L\left(w \right)=\prod_{i=1}^{m}\left(h_\theta\left(x^{\left(i \right)} \right) \ right)^{y^{i}}\left(1-h_theta\left(x^{\left(i \right)} \right) \right)^{1-y^{\left(i \ right)}$
这里有一个问题: 为什么
LR 损失函数为什么用极大似然函数?
因为我们想要让 每一个 样本的预测都要得到最大的概率,
即将所有的样本预测后的概率进行相乘都最大,也就是极大似然函数.
对极大似然函数取对数以后相当于对数损失函数,
由上面 梯度更新 的公式可以看出,
对数损失函数的训练求解参数的速度是比较快的,
而且更新速度只和x,y有关,比较的稳定,
为什么不用平方损失函数
如果使用平方损失函数,梯度更新的速度会和 sigmod 函数的梯度相关,sigmod 函数在定义域内的梯度都不大于0.25,导致训练速度会非常慢。
而且平方损失会导致损失函数是 theta 的非凸函数,不利于求解,因为非凸函数存在很多局部最优解。
logistic regression 必知必会
原文:https://www.cnblogs.com/wuyjinx/p/12327217.html