首页 > 其他 > 详细

机器学习之决策树

时间:2019-11-06 16:10:48      阅读:101      评论:0      收藏:0      [点我收藏+]

1. 决策树(decision tree):是一种基本的分类与回归方法,分类树对离散变量做决策树,回归树对连续变量做决策树

在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。

 2. 决策树的基本思想是以信息熵为变量构造一棵熵值下降最快的树,到叶子节点处的熵值为0.

3. 信息熵:用来度量信源X整体的不确定性的

                 技术分享图片

 

     

 

4. 条件熵:H(Y/X)表示在已知随机变量X的条件下随机变量Y的不确定性

   技术分享图片

 

5. 信息增益:

         技术分享图片

 

6. 信息增益率:

技术分享图片

 

 7. Gini系数:

技术分享图片

 

8.构建决策树的主要算法:

        1.ID.3:使用信息增益来进行特征选择

        2.C4.5:使用信息增益率来进行特征选择

        3.CART:使用Gini系数来进行特征选择

9.几种属性选择度量的对比:

    信息增益:偏向于多属性。一个属性的信息增益越大,表明该属性减少样本的熵的能力更强,这个属性使得数据由不确定性变成确定性的能力更强。

    信息增益率:引入了分裂信息,取值数目多的属性分裂信息也会变大,将增益除以分裂信息,再加上一些额外操作,可以有效的解决信息增益过大的问题。增益率倾向于不平衡的分裂,使得其中一个自己比其他子集要小的很多。

    Gini系数:偏向于多值属性,当类数目较大时,计算比较复杂,它倾向于大小相等的分区和纯度。

10.根据银行贷款数据如何去划分是否能得到贷款?

技术分享图片

 

 技术分享图片

 

 11.

技术分享图片

 

 12.

技术分享图片

 

 13.使用graphviz进行dot转png后中文乱码

   技术分享图片

 

   解决方案:

技术分享图片

 

       编辑fontname=FangSong,即可!

14.

技术分享图片

 

 

 

  

 

     

 

 

机器学习之决策树

原文:https://www.cnblogs.com/chengwentan/p/11801890.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!