首页 > 其他 > 详细

集成学习专题

时间:2020-09-10 13:00:27      阅读:57      评论:0      收藏:0      [点我收藏+]

 

(1)决策树

1 决策树算法?

2 什么是熵? 信息熵公式

3 信息增益公式及意义?

4 决策树处理连续值的方法

把连续值变量进行排序成(a1,a2,…an)
再从(a1,a2)区间里取中位点A1作为分界来分裂数据,算信息增益率/基尼指数,从(a2,a3)区间里取中位点A2作为分界来分裂数据,算信息增益率/基尼指数,这样可以得到n-1个信息增益率,然后选最大的。

(2)

5 过拟合

判断:决策树对训练属于有很好的分类能力,但对未知的测试数据未必有好的分类能力,泛化 能力弱,即可能发生过拟合现象. 

原因:(1)样本里的噪音数据干扰过大

          (2)样本抽取错误,包括(但不限于)样本数量太少,抽样方法错误,抽样时没有足够正确考虑业务场景或业务特点

          (3)建模时使用了样本中太多无关的输入变量。

解决:(1)合理、有效地抽样,用相对能够反映业务逻辑的训练集去产生决策树;

          (2) 剪枝

6 介绍决策树 三种决策树区别和适应场景

7 说说决策树,决策树节点按照什么分裂,如何优化决策避免过拟合;

26 C4.5 ID3 优缺点

ID3选用信息增益作为损失函数,具有对多类特征的选择偏向性,且不能处理连续型特征,不能处理回归问题。

C4.5选择信息增益率作为损失函数,采用单点离散化对连续型特征进行处理,但是不能处理回归问题

CART对于分类问题选用基尼指数作为损失函数,对于回归问题使用平方误差作为损失函数。

这三类算法都是贪心算法,找到的是局部最优分裂方法。

 

11 怎么避免ID3算法增益的缺点

只能处理离散型属性,并且对倾向于选择取值较多的属性

C4.5算法流程与ID3相类似,只不过将信息增益改为信息增益比,以解决偏向取值较多的属性的问题,另外它可以处理连续型属性

(2)随机森林

12 防止随机森林过拟合? 为什么有放回采样?

1. 如果不抽样,那么基学习器用所有样本训练,基学习器太相似差异性太小,模型的泛化性就很差;

2. 如果不放回抽样,那么每棵树用的样本完全不同,基学习器之间的相似性小,投票结果差,模型偏差大;

3. 可以产生一部分袋外样本,可以用来做袋外估计;

4. 改变了每个基学习器所用数据的样本分布,一定程度上引入了噪音,增加了模型的泛化能力。

8 随机森林算法?优缺点?

9 随机森林损失函数?

回归:平方误差

分类:基尼指数

10 随机森林怎么取最终结果 (分类与回归不同)

https://blog.csdn.net/sinat_41613352/article/details/88152589

(3)GBDT

https://www.douban.com/note/670632222/

13 了解Boosting么

14 gbdt树根据什么分裂? 怎么并发?

15 你觉得为什么gbdt的boosting体现在哪里。

16 随机森林节点的分裂策略,以及它和gbdt做分类有什么区别?哪个效果更好些?为什么?哪个更容易过拟合?为什么?

20 GBDT 损失函数解释

21 达到相似的预测结果,RF和GBDT哪个树深

随机森林

22 Bagging和bosting、GBDT 区别

24 GBDT 随机森林区别

(4)XGboost

17 介绍xgboost原理一下。写下xgboost目标函数。

18 讲讲xgboost怎么用以及常用参数

19 xgboost对特征缺失敏感吗,对缺失值做了什么操作? 哪些模型对特征缺失敏感,哪些不敏感

23 Adaboost 随机森林区别?

25 GDBT和XGBoost的区别

 

 




集成学习专题

原文:https://www.cnblogs.com/hapyygril/p/13644815.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!