常用于分类过程,但也可以用于回归,分类模型时中间节点为属性,叶子节点为类别。
特点:
最大化信息增益来选择属性
。通过在验证集上的效果来剪枝(预剪枝+后剪枝,防止过拟合的的主要手段)。分类回归树 CART(Classification and Regression Trees):二元划分(二叉树)。分类时度量指标为Gini指标(最小化基尼指数)、 Towing;回归问题时,度量指标以为最小平方残差。直观来说, Gini(D) 反映了从数据集D 中随机抽取两个样本,其类别标记不一致的概率。因此, Gini(D) 越小,则数据集D 的纯度越高。设结点数据集为 D ,对每个特征 A ,对其每个值 a ,根据样本点对A=a 的测试为是或否,将 D 分为 D1 D2 ,计算 A=a 的基尼指数
。
随机森林在 bagging基础上做了 修改:
样本扰动
。属性扰动
原文:https://www.cnblogs.com/justisme/p/12833590.html