决策树(二)

时间：2020-04-30 21:11:55 阅读：55 评论：0 收藏：0 [点我收藏+]

相关概念：

剪枝：如果有特征对决策没有很大的帮助，那么可以进行预剪枝或后剪枝操作。（对决策树减少节点的形象说法）。

不同算法信息指标：

①信息增益（ID3算法）：

简单易懂，适合大部分场景；

但是因为分割越细错分率越低，效果越好，所以存在分割太细造成对训练数据的过拟合问题，使得对测试数据的泛化效果差。

最高效的方案为根据各个特征的信息增益从大到小排列得到方案（特征的决策顺序）。

②信息增益率（C4.5算法）：

对ID3算法的改进：除了指标变化，其他部分大同小异；

信息增益率可以避免分割太细，如果分割太细坟墓相应也会增加，信息增益率减小，该特征就不会被优先选中。

最高效的方案为根据各个特征的信息增益率从大到小排列得到方案。

③基尼系数（Cart算法）：

基尼(gini)系数：总体内部包含越混乱，基尼系数越大；

最高效的方案为gini系数最小的方案。

但也存在分割过细，容易造成过拟合的情况；通常利用剪枝操作处理；计算代价高。

对数据集的利用：交叉验证法：cross-validation

【3 folds cross validation：训练集：测试集=2：1（从3份中选1份：可以是随机采样，然后按比例划分数据集）】

10 folds cross validation : 训练集：测试集=9：1（从10份中选1份：可以是随机采样，然后按比例划分数据集）

第一次：选1作为测试集，选2~9作为训练集；

第二次：选2作为测试集，选1，3~10作为训练集；

...

最后，取平均错分率作为总的错分率；

参考资料：

https://zhuanlan.zhihu.com/p/30059442，作者：犀利哥的大实话

原文：https://www.cnblogs.com/feynmania/p/12810996.html

踩

(0)

评论一句话评论（0）

分享档案

更多>