首页 > 其他 > 详细

随机森林（Random Foreast）

时间：2016-03-07 20:48:52 阅读：440 评论：0 收藏：0 [点我收藏+]

　　RF是一种基于bagging的机器学习方法，通过某种规则综合多个弱分类器的分类结果，比如投票（对于分类问题）、加权（对于回归问题），得到一个比较理想的强分类器。在RF中采用的弱分类器是一颗颗决策树，所以让我们从决策树开始说起。

　　决策树（DT）

　　首先，DT是一种树形结构，树中的每个分支表示属性组中的某个属性的一种取值。如何构建DT？DT学习是一种无回溯的贪心过程。对于给定的属性组和待预测变量，DT学习会每次从属性组中选取"与待预测变量关联最大的属性"（贪心），根据该属性的不同取值生成树分支，并且已经被选中过的属性将在后面的决策过程中不再被考虑（无回溯）。

　　了解了决策树的整体思想，那么通过哪种方式找到的"与待预测变量关联最大的属性"才是合理的？换句话说，”属性与预测变量之间的关联度“在数学上怎么计算？这个问题，其实也就是现在比较常见的几种决策树算法之间的最大区别。

天气	温度	湿度	大风	去玩
晴天	热	高	否	否
晴天	热	高	是	否
多云	热	高	否	是
下雨	适度	高	否	是
下雨	冷	适度	否	是
下雨	冷	适度	是	否
多云	冷	适度	是	是
晴天	适度	高	否	否
晴天	冷	适度	否	是
下雨	适度	适度	否	是
晴天	适度	适度	是	是
多云	适度	高	是	是
多云	热	适度	否	是
下雨	适度	高	是	否

　　

　　信息熵

　　 $技术分享$

　　ID3算法

　　信息增益

　　 $技术分享$

　　C4.5算法

　　信息增益率

　　 $技术分享$

　　CART算法

　　纯度

　　 $技术分享$

　　完全生长的决策树停止条件

　　节点上的所有样本具有相同的标记

　　属性组里面所有的属性都已经被选取过了

　　训练误差：对应于停止条件二，具体表现为多个样本的属性组值完全相同，但是标记却不同

　　测试误差：一般比训练误差大，如果测试误差远大于训练误差，说明存在过拟合

　　过拟合

　　原因：训练数据集存在噪声

　　优化方案

　　剪枝

　　前置剪枝——定义合适的停止条件

　　后置剪枝——先生成完全生长的决策树，在剪去关联性不强的分支，主要方法有卡方检验

　　随机森林

　　假设现在有一个训练集 $技术分享$ ，其中训练样本的个数为 $技术分享$ ，每个样本由特征集 $技术分享$ 和标记 $技术分享$ 组成，其中特征的个数为 $技术分享$ ，随机森林的训练过程如下：

　　从训练集X中有放回的随机选择与总体样本数量相同的 $技术分享$ 个样本作为新的样本集训练决策树

　　在训练决策树的过程中，节点每次分裂时随机从特征集 $技术分享$ 中选 $技术分享$ 个特征，在这 $技术分享$ 个特征中选择一个分裂，提出者在论文中使用CART树

　　重复节点的分裂，生成完全生长的决策树

　　重复步骤1~步骤3 k次，则生成k颗决策树，最终的结果由这些决策树投票得出

　　

　　

　　

　　

随机森林（Random Foreast）

原文：http://www.cnblogs.com/summerautumn/p/5128486.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！