首页 > 其他 > 详细

3 决策树(一)

时间:2015-12-06 22:44:56      阅读:442      评论:0      收藏:0      [点我收藏+]

3.1  决策树的构造

3.1.1 信息增益

熵(entropy)是信息的期望值。如果待分类的事物可能划分在多个分类中,则符号xi的信息定义为:技术分享,p(xi)为该分类的概率。

为了计算熵,需计算所有类别所有可能包含的信息期望值:技术分享,n是分类的数目。

技术分享

技术分享

3.1.2 划分数据集

分类算法需要:上述的测量信息熵、划分数据集、度量划分数据集的熵。

技术分享

技术分享

技术分享

注意:这里数据集需要满足以下两个办法:

<1>所有的列元素都必须具有相同的数据长度

<2>数据的最后一列或者每个实例的最后一个元素是当前实例的类别标签。

技术分享

3.1.3 递归构建决策树

递归结束条件:程序遍历完所有划分数据集的属性,或者每个分支下的所有实例都有相同的分类。

如果数据集已处理完所有属性,但类标签依然不唯一。此时,会采用多数表决方法决定该叶子节点分类。

该叶节点中属于某一类最多的样本数,那么我们就说该叶节点属于那一类!。

技术分享

技术分享

技术分享

 

3 决策树(一)

原文:http://www.cnblogs.com/hudongni1/p/5024450.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!