首页 > 其他 > 详细

决策树

时间:2020-01-19 20:13:43      阅读:81      评论:0      收藏:0      [点我收藏+]

树模型:

决策树:从根节点开始一步步走到叶子节点(决策)。

所有的数据最终都会落到叶子节点,既可以做分类也可以做回归。

树的组成:

根节点:第一个选择点

非叶子节点与分支:中间过程

叶子节点:最终的决策树结果

决策树的训练与测试:

训练阶段:从给定的训练集构造出来一棵树(从根节点开始选择特征,如何进行特征切分)

测试阶段:根据构造出来的树模型从上到下走一遍就好了。

问题:根节点的选择该用哪个特征?接下来,如果切分呢?(如何切分特征)

目标:通过一种衡量标准,来计算通过不同的特征进行分支选择后的分类情况,找出最好的那个当成根节点,以此类推。

 

衡量标准-熵

:熵是表示随机变量不确定性的度量(越乱的结构说明熵值越高)。不确定性越大,得到的熵值也越大。

(解释:说白了就是物体内部的混乱程度,比如杂货市场里面什么都有,那肯定混乱,专卖店里面只卖一个牌子的那就稳定多了) 

当 p=0或p=1的时候,H(p)=0,随机变量完全没有不确定性。当p=0.5的时候,H(p)=1,此时随机变量的不确定性越大。

信息增益:表示特征X使得类Y不确定性减少的程度。(分类后的专一性,希望分类后的结果是同类在一起)。也可以说表示的是你的熵值下降了多少。

比如原来熵值是10,后来熵值是8,那么就说明信息增益为2.

 

问答:

1.如何决策一个节点的选择?

通常来说大当家根节点去信息增益里面找最大的那个,二当家找信息增益第二的那个,依次类推下去,确保这个决策树的不确定性降到最低。增益越大,说明不确定性较少的越多。

决策树

原文:https://www.cnblogs.com/yunxintryyoubest/p/12215295.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!