1. 概念梳理:
AdaBoost:
运行过程:训练数据中的每一个样本,并赋一个权重,这些权重值构成向量D,已开始这些权重值一样。
第一次训练完,得到一个弱分类器,计算该分类器的错误率,然后调整每个样本的权重值,对同一个训练数据进行第二次训练得到第二个分类器。(第一次分对的样本权重减小,分错的权重提高。)并且AdaBoost为每个分类器都分配了一个权重值alpha。
这样,样本权重D和alpha不断训练和调整,知道错误率为0或者分类器的数目达到要求为止。
bagging:从原始数据集选择S次后得到S个新的数据集,创建好S个数据集以后,应用某个学习算法分别作用于每个数据集得到了S个分类器。结果产生于:简单投票
boosting:集中关注在已有分类器中错分的数据来获得新的分类器,过程详看Adaboost。分类结果产生于:基于所有分类器的加权求和结果得到的。
集成学习:集合多个基学习器(弱学习器)。(自助采样方法)
集成学习的方法大致可以分为两类:Boosting为代表的个体学习器之间存在强依赖关系、必须串行生成的序列化方法;再就是以Bagging和随机森林为代表的个体学习器间不存在强依赖关系,可以同时生成的并行化方法。
2. 分类性能:
正确率:分类正确的正例占在预测结果中的为正例(预测中有一部分是真实正例和伪正例)的比例
召回率:给出的是分类正确的正例占所有真实正例(真实的标签正例)的比例
ROC曲线:度量分类中的非均衡型的工具。假阳率(x)和真阳率(y)。ROC曲线中有两条线:实线,虚线:随机猜测的结果曲线
AUC:曲线下面积:分类器的平均性能值,一个完美分类器的AUC为1.0, 而随机猜测的AUC为0.5
3. 偏差和方差:
4. 随机森林:
bagging的一种扩展,RF是以决策树为基学习器构建Bagging的过程,进一步在决策树的训练过程中引入了随机属性选择。
传统的决策树是在当前节点的属性集合中选择一个最优的属性,RF中对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含k个属性的子集,在子集中选择一个最优的用做划分。
5. 结合策略:
1)结合的好处:
2)结合策略:
6. 多样性:误差-分歧分解;多样性度量的各种策略
原文:http://www.cnblogs.com/zola/p/7476149.html