首页 > 其他 > 详细

决策树(二)

时间:2020-04-30 21:11:55      阅读:53      评论:0      收藏:0      [点我收藏+]

相关概念:

剪枝:如果有特征对决策没有很大的帮助,那么可以进行预剪枝或后剪枝操作。(对决策树减少节点的形象说法)。

不同算法信息指标:

①信息增益(ID3算法):

简单易懂,适合大部分场景;

但是因为分割越细错分率越低,效果越好,所以存在分割太细造成对训练数据的过拟合问题,使得对测试数据的泛化效果差。

最高效的方案为根据各个特征的信息增益从大到小排列得到方案(特征的决策顺序)。

②信息增益率(C4.5算法):

对ID3算法的改进:除了指标变化,其他部分大同小异;

信息增益率可以避免分割太细,如果分割太细坟墓相应也会增加,信息增益率减小,该特征就不会被优先选中。

最高效的方案为根据各个特征的信息增益率从大到小排列得到方案。

③基尼系数(Cart算法):

基尼(gini)系数:总体内部包含越混乱,基尼系数越大;

最高效的方案为gini系数最小的方案。

但也存在分割过细,容易造成过拟合的情况;通常利用剪枝操作处理;计算代价高。

 

对数据集的利用:交叉验证法:cross-validation

【3 folds cross validation:训练集:测试集=2:1(从3份中选1份:可以是随机采样,然后按比例划分数据集)】

10 folds cross validation : 训练集:测试集=9:1(从10份中选1份:可以是随机采样,然后按比例划分数据集)

第一次:选1作为测试集,选2~9作为训练集;

第二次:选2作为测试集,选1,3~10作为训练集;

...

最后,取平均错分率作为总的错分率;

参考资料:

https://zhuanlan.zhihu.com/p/30059442,作者:犀利哥的大实话

决策树(二)

原文:https://www.cnblogs.com/feynmania/p/12810996.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!