GBDT算法梳理

时间：2019-03-01 23:46:20 阅读：219 评论：0 收藏：0 [点我收藏+]

1，前向分布算

从前向后，每一步只学习一个基函数及其系数，然后逐步逼近优化目标式，那么就可以简化优化的复杂度。具体的，每步只需优化如下损失函数：

技术分享图片

输入

训练数据集T ={(x1,y1), (x2, y2), ..., (xN, yN)}；损失函数L(y, f(x))；基函数集{b(x; r)}；

输出

加法模型f(x)

解：

1，初始化f₀(x)= 0

2，对m = 1, 2,.., M

a，极小化损失函数

技术分享图片

得到参数β_m, r_m

b，更新

技术分享图片

3，得到加法模型

技术分享图片

这样，前向分布算法将同时求解从m=1到M的所有参数β_m, r_m的优化问题简化为逐次求解各个β_m, r_m的优化问题。

2，负梯度拟合

损失函数的负梯度来拟合本轮损失的近似值，进而拟合一个CART回归树。第t轮的第i个样本的损失函数的负梯度表示为:

　　技术分享图片

　　　　利用(xi,rti)(i=1,2,...m),我们可以拟合一颗CART回归树，得到了第t颗回归树，其对应的叶节点区域Rtj,j=1,2,...,J。其中J为叶子节点的个数。

　　　　针对每一个叶子节点里的样本，我们求出使损失函数最小，也就是拟合叶子节点最好的的输出值ctj如下：

技术分享图片

　　　　这样我们就得到了本轮的决策树拟合函数如下：

技术分享图片

　　　　从而本轮最终得到的强学习器的表达式如下：

技术分享图片

　　　　通过损失函数的负梯度来拟合，我们找到了一种通用的拟合损失误差的办法，这样无轮是分类问题还是回归问题，我们通过其损失函数的负梯度的拟合，就可以用GBDT来解决我们的分类回归问题。区别仅仅在于损失函数不同导致的负梯度不同而已。

3，损失函数

对于分类算法，其损失函数一般有对数损失函数和指数损失函数两种:

　　　　a) 如果是指数损失函数，则损失函数表达式为

　　　技术分享图片

　　　　　其负梯度计算和叶子节点的最佳残差拟合参见Adaboost原理篇。

　　　　b) 如果是对数损失函数，分为二元分类和多元分类两种，参见4.1节和4.2节。

　　　　对于回归算法，常用损失函数有如下4种:

　　　　a)均方差，这个是最常见的回归损失函数了

　　技术分享图片

　　　　b)绝对损失，这个损失函数也很常见

　　技术分享图片

　　　　对应负梯度误差为：

　技术分享图片

　　　　c)Huber损失，它是均方差和绝对损失的折衷产物，对于远离中心的异常点，采用绝对损失，而中心附近的点采用均方差。这个界限一般用分位数点度量。损失函数如下：　　

　　技术分享图片

　　　　　对应的负梯度误差为：

　　技术分享图片

　　　　d) 分位数损失。它对应的是分位数回归的损失函数，表达式为

　技术分享图片

　　　　　　其中

　　　　　　对于Huber损失和分位数损失，主要用于健壮回归，也就是减少异常点对损失函数的影响。

4，回归

输入:是训练集样本T={(x1,y1),(x2,y2)...(xm,ym)} $T = {(x_{,} y_{1}), (x_{2}, y_{2}), . . . (x_{m}, y_{m})}$

$T = {(x_{,} y_{1}), (x_{2}, y_{2}), . . . (x_{m}, y_{m})}$

　　　　2) 对迭代轮数t=1,2,...T有：

　　　　　　a)对样本i=1,2，...m，计算负梯度

　　技术分享图片

　　　　　　b)利用(xi,r ti)(i=1,2...m), 拟合一颗CART回归树,得到第t颗回归树，其对应的叶子节点区域为Rtj,j=1.2...J 。其中J为回归树t的叶子节点的个数。

　　　　　　c) 对叶子区域j =1,2,..J,计算最佳拟合值

　　　技术分享图片

　　　　　　 d) 更新强学习器

　　　技术分享图片

　　　　3) 得到强学习器f(x)的表达式

　　　技术分享图片

5，二分类，多分类

二分类

　　　　对于二元GBDT，如果用类似于逻辑回归的对数似然损失函数，则损失函数为：

　　技术分享图片

　　　　其中y {-1,1} 则此时的负梯度误差为:

　　技术分享图片

　　　　对于生成的决策树，我们各个叶子节点的最佳残差拟合值为:

　　技术分享图片

　　　　由于上式比较难优化，我们一般使用近似值代替

　　　技术分享图片

　　　　除了负梯度计算和叶子节点的最佳残差拟合的线性搜索，二元GBDT分类和GBDT回归算法过程相同。

多分类

　　　　多元GBDT要比二元GBDT复杂一些，对应的是多元逻辑回归和二元逻辑回归的复杂度差别。假设类别数为K，则此时我们的对数似然损失函数为：

　技术分享图片

　　　　其中如果样本输出类别为k，则yk=1第k类的概率Pk(x) $p_{k} (x)$

$p_{k} (x)$

　　　　集合上两式，我们可以计算出第t

　　　　观察上式可以看出，其实这里的误差就是样本i对应类别

　　　　由于上式比较难优化，我们一般使用近似值代替：

　　　技术分享图片

　　　　除了负梯度计算和叶子节点的最佳残差拟合的线性搜索，多元GBDT分类和二元GBDT分类以及GBDT回归算法过程相同

6，正则化

需要对GBDT进行正则化，防止过拟合。GBDT的正则化主要有三种方式。

　　　　第一种是和Adaboost类似的正则化项，即步长(learning rate)。定义为V，对于前面的弱学习器的迭代

　　技术分享图片

　　　　如果我们加上了正则化项，则有:

　　技术分享图片

　　　 v 的取值范围为0<v<1.对于同样的训练集学习效果，较小的v意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。

　　　　第二种正则化的方式是通过子采样比例（subsample）。取值为(0,1]。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5, 0.8]之间。

　　　　使用了子采样的GBDT有时也称作随机梯度提升树(Stochastic Gradient Boosting Tree, SGBT)。由于使用了子采样，程序可以通过采样分发到不同的任务去做boosting的迭代过程，最后形成新树，从而减少弱学习器难以并行学习的弱点。

　　　　第三种是对于弱学习器即CART回归树进行正则化剪枝。在决策树原理篇里我们已经讲过，这里就不重复了。

7，优缺点

GBDT主要的优点有：

　　　　1) 可以灵活处理各种类型的数据，包括连续值和离散值。

　　　　2) 在相对少的调参时间情况下，预测的准确率也可以比较高。这个是相对SVM来说的。

　　　　3）使用一些健壮的损失函数，对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。

　　　　GBDT的主要缺点有：

　　　　1)由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。

8，sklearn参数

1) 划分时考虑的最大特征数max_features: 可以使用很多种类型的值，默认是"None",意味着划分时考虑所有的特征数；如果是"log2"意味着划分时最多考虑 $l o g_{2} N$

　　　　2) 决策树最大深度max_depth: 默认可以不输入，如果不输入的话，默认值是3。一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间。

　　　　3) 内部节点再划分所需最小样本数min_samples_split: 这个值限制了子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。默认是2.如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。

　　　　4) 叶子节点最少样本数min_samples_leaf: 这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。默认是1,可以输入最少的样本数的整数，或者最少样本数占样本总数的百分比。如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。

　　　　5）叶子节点最小的样本权重和min_weight_fraction_leaf：这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝。默认是0，就是不考虑权重问题。一般来说，如果我们有较多样本有缺失值，或者分类树样本的分布类别偏差很大，就会引入样本权重，这时我们就要注意这个值了。

　　　　6) 最大叶子节点数max_leaf_nodes: 通过限制最大叶子节点数，可以防止过拟合，默认是"None”，即不限制最大的叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。如果特征不多，可以不考虑这个值，但是如果特征分成多的话，可以加以限制，具体的值可以通过交叉验证得到。

　　　　7) 节点划分最小不纯度min_impurity_split: 这个值限制了决策树的增长，如果某节点的不纯度(基于基尼系数，均方差)小于这个阈值，则该节点不再生成子节点。即为叶子节点。一般不推荐改动默认值1e-7。

9，应用场景

GBDT几乎可用于所有回归问题（线性/非线性），亦可用于二分类问题（设定阈值，大于阈值为正例，反之为负例）。

GBDT算法梳理

原文：https://www.cnblogs.com/zhgmen/p/10459136.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)