首页 > 其他 > 详细

C4.5较ID3的改进

时间：2015-06-28 16:55:23 阅读：202 评论：0 收藏：0 [点我收藏+]

1.ID3选择最大化Information Gain的属性进行划分

C4.5选择最大化Gain Ratio的属性进行划分

规避问题：ID3偏好将数据分为很多份的属性

解决：将划分后数据集的个数考虑进去

entropy	（其中RF-relative frequency）
Information Gain->ID3
potential information of partition
Gain Ratio->C4.5

当数据被划分成很多份时，每一份占的比例变小，P(S,B)变大，Gain Ratio变小

2.C4.5中加入对missing value的处理

a.在构建树时

属性选择

按属性B进行划分，该属性为空的数据被标记为S0，不参与计算

当空值占多数时，G会偏小，使不偏向于选择空值多的属性

只考虑数据非空部分的信息获取量，并乘以权重

数据划分

属性B为空的数据，按其他类的比例分入子类中

Si类会得到|S0|*

各S0数据

b.进行预测时

叶子节点的各类预测的概率为其比例，比如(0.25,0.5,0.25)

在碰到节点，使用属性B进行划分，而此时要预测的数据Y，B为空，

则需要遍历各个子树的分类结果，并按各个子树构建时划分到的数据的数量多少决定权重

3.剪枝

没看明白...

来自为知笔记(Wiz)

C4.5较ID3的改进

原文：http://www.cnblogs.com/porco/p/4605668.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！