logistic regression 必知必会

时间：2020-02-18 18:38:00 阅读：55 评论：0 收藏：0 [点我收藏+]

一、简介

逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。

这里面其实包含了5个点 1：逻辑回归的假设，2：逻辑回归的损失函数，3：逻辑回归的求解方法，4：逻辑回归的目的，5:逻辑回归如何分类。这些问题是考核你对逻辑回归的基本了解。

二、logistic regreesion的假设

假设一: 假设数据服从伯努利分布: $h_\theta\left(x;\theta \right )=p$

假设二: 假设正样本为正的概率是: $p=\frac{1}{1+e^{-\theta^{T} x}}$

所以logistic regression的形式是: $h_\theta\left(x;\theta \right )=\frac{1}{1+e^{-\theta^{T} x}}$

三、损失函数

将二分类的条件概率公式结合起来为：$p=\left(h_\theta\left(x \right) \right)^{y}\left(1-h_\theta\left(x \right) \right)^{1-y}$

然后用最大似然函数作为损失函数: $ L\left(w \right)=\prod_{i=1}^{m}\left(h_\theta\left(x^{\left(i \right)} \right) \ right)^{y^{i}}\left(1-h_theta\left(x^{\left(i \right)} \right) \right)^{1-y^{\left(i \ right)}$

这里有一个问题: 为什么

LR 损失函数为什么用极大似然函数？
因为我们想要让每一个样本的预测都要得到最大的概率，
即将所有的样本预测后的概率进行相乘都最大，也就是极大似然函数.

对极大似然函数取对数以后相当于对数损失函数，
由上面梯度更新的公式可以看出，
对数损失函数的训练求解参数的速度是比较快的，
而且更新速度只和x，y有关，比较的稳定，

为什么不用平方损失函数
如果使用平方损失函数，梯度更新的速度会和 sigmod 函数的梯度相关，sigmod 函数在定义域内的梯度都不大于0.25，导致训练速度会非常慢。
而且平方损失会导致损失函数是 theta 的非凸函数，不利于求解，因为非凸函数存在很多局部最优解。

logistic regression 必知必会

原文：https://www.cnblogs.com/wuyjinx/p/12327217.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)