决策树的样子大概是这个样子的:
选择一个特征作为根节点,把这个特征划分成两个孩子节点,每个孩子节点就是原始数据集的子集,然后再找一个特征作为划分……
划分的好坏,如图所示:
用纯度Purity来衡量划分的效果,如果划分的好,那么每一个子集都是某一类占据大多数,如果每一个子集都是跟父节点一样的状态,那么就是Low purity。
一个好的划分要满足下面两个特点:
决策树的终止条件:
有不同的衡量purity的方法,不同的衡量方法会导致不同的分裂。
GINI系数的计算方法:
可以看出来,GINI系数是类别的概率乘上类别的概率,而熵是类别的概率呈上类别概率的logarithm
看一下Entropy的计算方法:
决策树purity/基尼系数/信息增益 Decision Trees
原文:https://www.cnblogs.com/PythonLearner/p/12940067.html