相关概念:
剪枝:如果有特征对决策没有很大的帮助,那么可以进行预剪枝或后剪枝操作。(对决策树减少节点的形象说法)。
不同算法信息指标:
①信息增益(ID3算法):
简单易懂,适合大部分场景;
但是因为分割越细错分率越低,效果越好,所以存在分割太细造成对训练数据的过拟合问题,使得对测试数据的泛化效果差。
最高效的方案为根据各个特征的信息增益从大到小排列得到方案(特征的决策顺序)。
②信息增益率(C4.5算法):
对ID3算法的改进:除了指标变化,其他部分大同小异;
信息增益率可以避免分割太细,如果分割太细坟墓相应也会增加,信息增益率减小,该特征就不会被优先选中。
最高效的方案为根据各个特征的信息增益率从大到小排列得到方案。
③基尼系数(Cart算法):
基尼(gini)系数:总体内部包含越混乱,基尼系数越大;
最高效的方案为gini系数最小的方案。
但也存在分割过细,容易造成过拟合的情况;通常利用剪枝操作处理;计算代价高。
对数据集的利用:交叉验证法:cross-validation
【3 folds cross validation:训练集:测试集=2:1(从3份中选1份:可以是随机采样,然后按比例划分数据集)】
10 folds cross validation : 训练集:测试集=9:1(从10份中选1份:可以是随机采样,然后按比例划分数据集)
第一次:选1作为测试集,选2~9作为训练集;
第二次:选2作为测试集,选1,3~10作为训练集;
...
最后,取平均错分率作为总的错分率;
参考资料:
https://zhuanlan.zhihu.com/p/30059442,作者:犀利哥的大实话
原文:https://www.cnblogs.com/feynmania/p/12810996.html