决策树purity/基尼系数/信息增益 Decision Trees

时间：2020-05-23 01:10:28 阅读：110 评论：0 收藏：0 [点我收藏+]

决策树简单描述

决策树的样子大概是这个样子的：
技术分享图片

选择一个特征作为根节点，把这个特征划分成两个孩子节点，每个孩子节点就是原始数据集的子集，然后再找一个特征作为划分……

划分的好坏，如图所示：
技术分享图片

用纯度Purity来衡量划分的效果，如果划分的好，那么每一个子集都是某一类占据大多数，如果每一个子集都是跟父节点一样的状态，那么就是Low purity。

一个好的划分要满足下面两个特点：

决策树的终止条件：

有不同的衡量purity的方法，不同的衡量方法会导致不同的分裂。

技术分享图片

GINI系数的计算方法：

技术分享图片

技术分享图片
可以看出来，GINI系数是类别的概率乘上类别的概率，而熵是类别的概率呈上类别概率的logarithm

GINI的取值范围是0.5~1，越大越purity；
Entropy的取值范围是0~1，越小越purity
介绍完了熵，那么什么是信息增益：
是要最大化的信息增益：

因为Entropy取值范围是0就purity，所以information gain越大，那么说明分割的purity越好。

看一下Entropy的计算方法：
技术分享图片

原文：https://www.cnblogs.com/PythonLearner/p/12940067.html

踩

(0)

评论一句话评论（0）

分享档案

更多>