首页 > 其他 > 详细

第五章:决策树

时间:2020-01-09 16:14:57      阅读:65      评论:0      收藏:0      [点我收藏+]

决策树模型与学习

决策树: if-then 规则的集合

性质:互斥并且完备,每个实例有且仅有一条对应的规则或者路径

条件概率分布

决策树表示给定特定特征条件下的条件概率分布

条件概率分布将特征空间进行了划分,每个划分是一个单元或者区域

技术分享图片

学习

决策树学习的本质是从训练数据集中归纳一组分类规则

损失函数通常是正则化的极大似然函数

损失函数确定,学习问题变为找到损失函数意义下的最优决策函数,(NP)问题,通常使用启发算法,求近似解

特征选择

信息增益

\[g(D,A) = H(D)-H(D|A)\]

信息增益等价于互信息

\(H(D) = -\sum_{k} \frac{|D_k|}{|D|}log_2{\frac{|D_k|}{|D|}}\)

\(H(D|A) = -\sum_{i=1}^{n}\frac{|D_i|}{|D|}H(D_i)=-\sum_{i=1}^{n}\frac{|D_i|}{|D|}\sum_{k}\frac{|D_{ik}|}{|D|}log_2{\frac{|D_{ik}|}{|D|}}\)

信息增益比

使用信息增益选择特征偏向于特征值较多的特征

\[g_R(D,A) = \frac{g(D,A)}{H_A(D)}\]

\[H_A(D) = -\sum_{i=1}^{n}\frac{|D_i|}{|D|}log_2{\frac{|D_i|}{|D|}}\]

决策树的生成

ID3

技术分享图片

C4.5

技术分享图片

剪枝

防止过拟合,提高模型的泛化能力

\(T\),的叶节点\(|T|\)\(t\)是树\(T\)的叶节点,该叶节点有\(N_t\)个样本点,其中\(k\)类的样本点有\(N_{tk}\),\(H_t(T)\)为叶节点\(t\)上的经验熵

损失函数

\[C_\alpha(T) = \sum_{t=1}^{|T|} N_tH_t(T)+\alpha |T|\]

\[H_t(T) = -\sum_{k} \frac{N_{tk}}{N_t} log_2{\frac{N_{tk}}{N_t}}\]

\[C(T) = \sum_{t=1}^{|T|} N_tH_t(T)\]

\[C_\alpha(T) = C(T)+\alpha|T|\]

CART 算法

分类与回归树(classification and regression tree)

回归树的生成

技术分享图片

分类树的生成

基尼指数

\[Gini(p) = \sum_{k}(1-p_k)p_k = 1-\sum_{k}p_k^2\]

\[Gini(D) = 1-\sum_{k=1}^{K} (\frac{|D_k|}{|D|})^2\]

二分类决策树

\[Gini(D,A) = \frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2)\]

技术分享图片

剪枝

\(\alpha\)控制者模型的大小,所以希望通过不同的\(\alpha\)来找到不同的大小的模型,然后通过交叉验证获取最好的模型

问题是\(\alpha\)如何选择

对于树中的一个内部节点\(t\),以t为单节点的损失函数(意味着在t节点剪纸后的结果)

\(C_\alpha(t) = C(t)+\alpha\)

\(t\)为根节点的子树\(T_t\)的损失函数

\(C_\alpha(T_t) = C(T_t)+\alpha |T_t|\)

\(\alpha=0\)的时候\(C_\alpha(T_t)< C_\alpha(t)\)

\(\alpha \to \infty\),\(C_\alpha(T_t)>C_\alpha(t)\)

连续函数,零点存在定理,存在\(\alpha=\frac{C(t)-C(T_t)}{|T_t|-1}\),时相同的损失函数.但是t的节点更少,t比\(T_t\)更可取.对\(T_t\)剪纸

技术分享图片

第五章:决策树

原文:https://www.cnblogs.com/Lzqayx/p/12171733.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!