集成学习专题

时间：2020-09-10 13:00:27 阅读：57 评论：0 收藏：0 [点我收藏+]

（1）决策树

1 决策树算法？

2 什么是熵？信息熵公式

3 信息增益公式及意义？

4 决策树处理连续值的方法

把连续值变量进行排序成（a1,a2,…an)
再从(a1,a2)区间里取中位点A1作为分界来分裂数据，算信息增益率/基尼指数，从（a2,a3）区间里取中位点A2作为分界来分裂数据，算信息增益率/基尼指数，这样可以得到n-1个信息增益率，然后选最大的。

（2）

5 过拟合

判断：决策树对训练属于有很好的分类能力,但对未知的测试数据未必有好的分类能力,泛化能力弱,即可能发生过拟合现象.

原因：（1）样本里的噪音数据干扰过大

（2）样本抽取错误，包括（但不限于）样本数量太少，抽样方法错误，抽样时没有足够正确考虑业务场景或业务特点

（3）建模时使用了样本中太多无关的输入变量。

解决：（1）合理、有效地抽样，用相对能够反映业务逻辑的训练集去产生决策树；

（2）剪枝

6 介绍决策树三种决策树区别和适应场景

7 说说决策树，决策树节点按照什么分裂，如何优化决策避免过拟合；

26 C4.5 ID3 优缺点

ID3选用信息增益作为损失函数，具有对多类特征的选择偏向性，且不能处理连续型特征，不能处理回归问题。

C4.5选择信息增益率作为损失函数，采用单点离散化对连续型特征进行处理，但是不能处理回归问题。

CART对于分类问题选用基尼指数作为损失函数，对于回归问题使用平方误差作为损失函数。

这三类算法都是贪心算法，找到的是局部最优分裂方法。

11 怎么避免ID3算法增益的缺点

只能处理离散型属性，并且对倾向于选择取值较多的属性

C4.5算法流程与ID3相类似，只不过将信息增益改为信息增益比，以解决偏向取值较多的属性的问题，另外它可以处理连续型属性。

（2）随机森林

12 防止随机森林过拟合？为什么有放回采样？

1. 如果不抽样，那么基学习器用所有样本训练，基学习器太相似差异性太小，模型的泛化性就很差；

2. 如果不放回抽样，那么每棵树用的样本完全不同，基学习器之间的相似性小，投票结果差，模型偏差大；

3. 可以产生一部分袋外样本，可以用来做袋外估计；

4. 改变了每个基学习器所用数据的样本分布，一定程度上引入了噪音，增加了模型的泛化能力。

8 随机森林算法？优缺点？

9 随机森林损失函数？

回归：平方误差

分类：基尼指数

10 随机森林怎么取最终结果（分类与回归不同）

https://blog.csdn.net/sinat_41613352/article/details/88152589

（3）GBDT

https://www.douban.com/note/670632222/

13 了解Boosting么

14 gbdt树根据什么分裂？怎么并发？

15 你觉得为什么gbdt的boosting体现在哪里。

16 随机森林节点的分裂策略，以及它和gbdt做分类有什么区别？哪个效果更好些？为什么？哪个更容易过拟合？为什么？

20 GBDT 损失函数解释

21 达到相似的预测结果，RF和GBDT哪个树深

随机森林

22 Bagging和bosting、GBDT 区别

24 GBDT 随机森林区别

(4)XGboost

17 介绍xgboost原理一下。写下xgboost目标函数。

18 讲讲xgboost怎么用以及常用参数

19 xgboost对特征缺失敏感吗，对缺失值做了什么操作? 哪些模型对特征缺失敏感，哪些不敏感

23 Adaboost 随机森林区别？

25 GDBT和XGBoost的区别

集成学习专题

原文：https://www.cnblogs.com/hapyygril/p/13644815.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)