分类回归树(Classification and Regression Tree,CART)
在构建回归树时,主要有两种不同的树:
- 回归树(Regression Tree),其每个叶节点是单个值
- 模型树(Model Tree),其每个叶节点是一个线性方程
在进行树的左右子树划分时,有一个很重要的量,即给定的值,特征值大于这个给定的值的属于一个子树,小于这个给定的值的属于另一个子树。
这个给定的值的选取的原则是使得划分后的子树中的“混乱程度”降低。如何定义这个混乱程度是设计CART算法的一个关键的地方。
在ID3算法中我们使用的信息熵和信息增益的概念。信息熵就代表了数据集的紊乱程度。
对于连续型的问题,我们可以使用方差的概念来表达混乱程度,方差越大,越紊乱。所以我们要找到使得切分之后的方差最小的划分方式。
GBDT 梯度boosting决策树 注意它和 AdaBoosting区别还是挺大的。ada是每次迭代都会将样本的权重修改一下,之前预测错误的权重up 预测正确的down。而GBDT,每次迭代所产生的树都是根据之前的残差来构建的。可以理解为残差是它每次迭代的预测值y
CART & GBDT
原文:https://www.cnblogs.com/nzmx123/p/9025304.html