首页 > 其他 > 详细

logistic regression 必知必会

时间:2020-02-18 18:38:00      阅读:55      评论:0      收藏:0      [点我收藏+]
一、简介
逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。
这里面其实包含了5个点 1:逻辑回归的假设,2:逻辑回归的损失函数,3:逻辑回归的求解方法,4:逻辑回归的目的,5:逻辑回归如何分类。这些问题是考核你对逻辑回归的基本了解。
 
二、logistic regreesion的假设
假设一: 假设数据服从伯努利分布: $h_\theta\left(x;\theta \right )=p$
技术分享图片
假设二: 假设正样本为正的概率是: $p=\frac{1}{1+e^{-\theta^{T} x}}$
技术分享图片
所以logistic regression的形式是: $h_\theta\left(x;\theta \right )=\frac{1}{1+e^{-\theta^{T} x}}$
技术分享图片
三、损失函数
将二分类的条件概率公式结合起来为:$p=\left(h_\theta\left(x \right) \right)^{y}\left(1-h_\theta\left(x \right) \right)^{1-y}$
然后用最大似然函数作为损失函数: $ L\left(w \right)=\prod_{i=1}^{m}\left(h_\theta\left(x^{\left(i \right)} \right) \ right)^{y^{i}}\left(1-h_theta\left(x^{\left(i \right)} \right) \right)^{1-y^{\left(i \ right)}$
这里有一个问题: 为什么

LR 损失函数为什么用极大似然函数?
因为我们想要让 每一个 样本的预测都要得到最大的概率,
即将所有的样本预测后的概率进行相乘都最大,也就是极大似然函数.

对极大似然函数取对数以后相当于对数损失函数,
由上面 梯度更新 的公式可以看出,
对数损失函数的训练求解参数的速度是比较快的,
而且更新速度只和x,y有关,比较的稳定,

为什么不用平方损失函数
如果使用平方损失函数,梯度更新的速度会和 sigmod 函数的梯度相关,sigmod 函数在定义域内的梯度都不大于0.25,导致训练速度会非常慢。
而且平方损失会导致损失函数是 theta 的非凸函数,不利于求解,因为非凸函数存在很多局部最优解。

技术分享图片
 

logistic regression 必知必会

原文:https://www.cnblogs.com/wuyjinx/p/12327217.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!