L1和L2正则化

时间：2020-09-03 16:56:15 阅读：63 评论：0 收藏：0 [点我收藏+]

一、损失函数的l1、l2正则化

机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作

技术分享图片

下图是Python中Ridge回归的损失函数，式中加号后面一项技术分享图片

一般回归分析中ω

L1正则化是指权值向量 ω 中各个元素的绝对值之和，通常表示为
L2正则化是指权值向量 ω 中各个元素的平方和然后再求平方根（可以看到Ridge回归的L2正则化项有平方符号），通常表示为

一般都会在正则化项之前添加一个系数，Python的机器学习包sklearn中用 α

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择
L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合

稀疏模型与特征选择的关系

稀疏矩阵指的是很多元素为0，只有少数元素是非零值的矩阵，即得到的线性回归模型的大部分系数都是0. 通常机器学习中特征数量很多，例如文本处理时，如果将一个词组（term）作为一个特征，那么特征数量会达到上万个（bigram）。在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，或者贡献微小（因为它们前面的系数是0或者是很小的值，即使去掉对模型也没有什么影响），此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系

二、L1和L2正则化的理解

这部分内容将解释为什么L1正则化可以产生稀疏模型（L1是怎么让系数等于零的），以及为什么L2正则化可以防止过拟合

假设有如下带L1正则化的损失函数：

技术分享图片

其中 $是不完全可微的。机器学习的任务就是要通过一些方法（比如梯度下降）求出损失函数的最小值。当我们在原始损失函数J0J_0J0?后添加L1正则化项时，相当于对J0J_0J0?做了一个约束。令L=α∑w∣w∣L = \alpha \sum_w{|w|}L=α∑w?∣w∣，则J=J0+LJ = J_0 + LJ=J0?+L，此时我们的任务变成在LLL约束下求出J0J_0J0?取最小值的解。考虑二维的情况，即只有两个权值w1w^1w1和w2w^2w2，此时L=∣w1∣+∣w2∣L = |w^1|+|w^2|L=∣w1∣+∣w2∣。对于梯度下降法，求解J0J_0J0?的过程可以画出等值线，同时L1正则化的函数LLL也可以在w1w2w^1w^2w1w2的二维平面上画出来。如下图$

L1和L2正则化

原文：https://www.cnblogs.com/cgmcoding/p/13608172.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)