参考资料
台湾大学《机器学习技法》视频
周志华《机器学习》
李航《统计学习方法》
决策树是一种运用概率与图论中的树对决策中的不同方案进行比较,从而获得最优方案的风险型决策方法。
决策树学习三步骤:
常用的决策树算法有ID3,C4.5和CART。用信息论中的熵来度量决策树的决策选择过程,这几个算法选择属性划分的方法各不相同。
决策树算法 | 划分选择 | 连续值处理 | 缺失值处理 | 剪枝 |
---|---|---|---|---|
ID3 | 信息增益 | 不支持 | 不支持 | 不支持 |
C4.5 | 信息增益率/增益比 | 支持 | 支持 | 支持 |
CART-分类 | 基尼值 | 支持 | 支持 | 支持 |
CART-回归 | 最小二乘 | 支持 | 支持 | 支持 |
在了解划分选择前,需要先了解一个概念,信息熵。
设\(X\)是一个取有限个值的离散随机变量,其概率分布为:
\[
P(X=x_i)=p(x_i)\\i=1,2,...n
\]
信息熵是在结果出来之前对可能产生的信息量的期望:
\[
Ent(D)=H(X)=-\sum_{i=1}^{n} p(x_i)log_2(p(x_i))\\以2为底,是因为信息熵的单位为比特bit
\]
熵越大,说明系统越混乱,得出结论的信息的信息量就越大。
例子:
太阳从东边升起,发生概率为1,信息熵为0bit,
如果有人跟你说“太阳从东边升起”,那么他给你的信息量就为0bit.
\[
-1\cdot log_21=0
\]
一个未出生的小孩,性别{男,女},对应的概率{\(\frac{1}{2}?\),\(\frac{1}{2}?\)},其信息熵为1bit,
如果医生告诉你孩子的性别,那边这条信息的信息量就为1bit.
\[
-(\frac{1}{2}\cdot log_2\frac{1}{2} + \frac{1}{2}\cdot log_2\frac{1}{2}) = -(\frac{1}{2}\cdot-1 + \frac{1}{2}\cdot-1) = 1
\]
逻辑理解:
? 信息增益 = entroy(前) - entroy(后)
公式理解:
? 熟悉了一个变量X的熵,很容易推广到多个变量的联合熵,这里给出两个变量\(X\)和\(Y\)的联合熵表达式:
\[
H(X,Y) = -\sum_{i=1}^{n}p(x_i,y_i)\log_2p(x_i,y_i)
\]
? 有了联合熵,又可以得到条件熵的表达式\(H(X|Y)\),条件熵类似于条件概率,它度量了我们的\(X\)在知道\(Y\)以后剩下的不确定性。表达式如下:
\[
H(X|Y) = -\sum_{i=1}^{n}p(x_i,y_i)\log_2p(x_i|y_i) = \sum_{j=1}^{n}p(y_j)H(X|Y=y_j)
\]
? \(H(X)?\)度量了\(X?\)的不确定性
? 条件熵\(H(X|Y)\)度量了我们在知道\(Y\)以后\(X\)剩下的不确定性
? 问题来了:那么\(H(X)-H(X|Y)?\)呢?
? 答案就是互信息【互信息=熵-条件熵】:它度量了\(X\)在知道\(Y\)以后不确定性减少程度!同时我们也可以把它记为\(I(X,Y)?\),称为信息增益。
逻辑理解:
? 信息增益比 = 惩罚参数 * 信息增益
公式理解:
? 它是信息增益和特征熵的比值
\[
I_R(D,A) = \frac{I(A,D)}{H_A(D)}
\]
? 其中\(D?\)为样本特征输出的集合,\(A?\)为样本特征,对于特征熵\(H_A(D)?\),?表达式如下:
\[
H_A(D) = -\sum\limits_{i=1}^{n}\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}
\]
? 其中\(n\)为特征\(A\)的类别数,?\(D_i\)为特征\(A\)的第\(i\)个取值对应的样本个数。\(D\)为样本个数。特征数越多的特征对应的特征熵越大,它作为分母,可以校正信息增益容易偏向于取值较多的特征的问题。
? 在ID3算法中我们使用了信息增益来选择特征,信息增益大的优先选择。在C4.5算法中,采用了信息增益比来选择特征,以减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的,这里面会涉及大量的对数运算。能不能简化模型同时也不至于完全丢失熵模型的优点呢?有!CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。
逻辑理解:
? 基尼指数(基尼不纯度)= 样本被选中的概率 * 样本被分错的概率
公式理解:
? 具体的,在分类问题中,假设有\(K\)个类别,第\(k\)个类别的概率为\(p_k\), 则基尼系数的表达式为:
\[
Gini(p) = \sum\limits_{k=1}^{K}p_k(1-p_k) = 1- \sum\limits_{k=1}^{K}p_k^2\二分类的情况:Gini(p) = 2p(1-p)
\]
? 对于个给定的样本\(D\),假设有\(K\)个类别, 第\(k\)个类别的数量为\(C_k\),则样本\(D\)的基尼系数表达式为:
\[
Gini(D) = 1-\sum\limits_{k=1}^{K}(\frac{|C_k|}{|D|})^2
\]
? 特别的,对于样本\(D\),如果根据特征\(A\)的某个值\(a\),把\(D\)分成\(D_1\)和\(D_2\)两部分,则在特征\(A\)的条件下,\(D\)的基尼系数表达式为:
\[
Gini(D,A) = \frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2)
\]
CART分类树算法每次仅仅对某个特征的值进行二分,而不是多分,这样CART分类树算法建立起来的是二叉树,而不是多叉树。这样一可以进一步简化基尼系数的计算\(Gini(p) = 2p(1-p)\),二可以建立一个更加优雅的二叉树模型。目标是选择出一个\(A_g\),使得\(Gini(D,A_g)\)最小。
ID3算法就是用信息增益大小来判断当前节点应该用什么特征来构建决策树,用计算出的信息增益最大的特征来建立决策树的当前节点。
输入的是\(m\)个样本,样本输出集合为\(D\),每个样本有\(n\)个离散特征,特征集合即为\(A\),输出为决策树\(T\).
算法的过程为:
初始化信息增益的阈值\(??\)
判断样本是否为同一类输出\(D_i\),如果是则返回单节点树\(T\)。标记类别为\(D_i\)
判断特征是否为空,如果是则返回单节点树\(T\),标记类别为样本中输出类别D实例数最多的类别。
计算\(A\)中的各个特征(一共\(n\)个)对输出\(D\)的信息增益,选择信息增益最大的特征\(A_g\)
如果\(A_g?\)的信息增益小于阈值\(??\),则返回单节点树\(T?\),标记类别为样本中输出类别\(D?\)实例数最多的类别。
否则,按特征\(A_g?\)的不同取值\(A_(gi)?\)将对应的样本输出D分成不同的类别\(D_i?\),每个类别产生一个子节点。对应特征值为\(A_(gi)?\).返回增加了节点的数\(T?\)。
对于所有的子节点,令\(D=D_i\),\(A=A?{A_g}\)递归调用2-6步,得到子树\(T_i\)并返回。
ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途。
ID3偏好选择取值多的特征做分支,ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现,在相同条件下,取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值,各为1/2,另一个变量为3个值,各为1/3,其实他们都是完全不确定的变量,但是取3个值的比取2个值的信息增益大。
直白解释:取值比较多的特征,就可以分叉出更多的分支,分支更多,每个分支的纯度必然更高!
ID3算法对于缺失值的情况没有做考虑
没有考虑过拟合的问题,即没有剪枝处理
C4.5与ID3算法为同一作者,C4.5是ID3的改进,其思路基本一致,主要是改进是ID3的四点不足之处。
对与 ID3没有考虑连续特征
? C4.5的思路是将连续的特征离散化。比如\(m\)个样本的连续特征\(A\)有\(m\)个,从小到大排列为\(a_1,a_2,...,a_m\),则C4.5取相邻两样本值的中位数,一共取得\(m-1\)个划分点,其中第\(i\)个划分点\(T_i\)表示为:\(T_i = \frac{a_i+a_{i+1}}{2}\)。对于这\(m-1\)个点,分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的增益最大的点\(a_t\),则小于\(a_t\)的值为类别1,大于\(a_t?\)的值为类别2,这样我们就做到了连续特征的离散化。要注意的是,与离散属性不同的是,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。
对与 ID3偏好选择取值多的特征做分支
? 改用信息增益率作为分支指标,因为特征数越多的特征对应的特征熵越大,它作为分母,可以校正信息增益容易偏向于取值较多的特征的问题。
对与ID3算法对于缺失值的情况没有做考虑
? 主要需要解决的是两个问题,一是在样本某些特征缺失的情况下选择划分的属性,二是选定了划分属性,对于在该属性上缺失特征的样本的处理。
? 对于第一个子问题,对于某一个有缺失特征值的特征A。C4.5的思路是将数据分成两部分,对每个样本设置一个权重(初始可以都为1),然后划分数据,一部分是有特征值A的数据D1,另一部分是没有特征A的数据D2. 然后对于没有缺失特征A的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比,最后乘上一个系数,这个系数是无特征A缺失的样本加权后所占加权总样本的比例。
? 对于第二个子问题,可以将缺失特征的样本同时划分入所有的子节点,不过将该样本的权重按各个子节点样本的数量比例来分配。比如缺失特征A的样本a之前权重为1,特征A有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1,A2,A3。对应权重调节为2/9,3/9, 4/9。
对与没有考虑过拟合的问题
? C4.5引入了正则化系数进行初步的剪枝。
分类与回归树(Classification And Regression Tree, 简称CART)模型在Tree家族中是应用最广泛的学习方法之一。它既可以用于分类也可以用于回归。
相比ID3 和 C4.5的多叉树,CART只对特征做二分,需要对应的思路:
CART回归树和CART分类树的建立方式是一样的,只不过改动了下面两点
连续值的处理方法不同
对于连续值的处理,我们知道CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型,但是对于回归模型,我们使用了常见的均方差的度量方式,CART回归树的度量目标是,对于任意划分特征\(A\),对应的任意划分点\(s\)两边划分成的数据集\(D_1\)和\(D_2\),求出使\(D_1\)和\(D_2\)各自集合的均方差最小,同时\(D_1\)和\(D_2?\)的均方差之和最小所对应的特征和特征值划分点。表达式为:
\[
\underbrace{min}_{A,s}\Bigg[\underbrace{min}_{c_1}\sum\limits_{x_i \in D_1(A,s)}(y_i - c_1)^2 + \underbrace{min}_{c_2}\sum\limits_{x_i \in D_2(A,s)}(y_i - c_2)^2\Bigg]
\]
决策树建立后做预测的方式不同。
对于决策树建立后做预测的方式,上面讲到了CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果。
无论是ID3, C4.5还是CART,在做特征选择的时候都是选择最优的一个特征来做分类决策,但是大多数,分类决策不应该是由某一个特征决定的,而是应该由一组特征决定的。这样决策得到的决策树更加准确。这个决策树叫做多变量决策树(multi-variate decision tree)。在选择最优特征的时候,多变量决策树不是选择某一个最优特征,而是选择最优的一个特征线性组合来做决策。这个算法的代表是OC1,这里不多介绍。
如果样本发生一点点的改动,就会导致树结构的剧烈改变。这个可以通过集成学习里面的随机森林之类的方法解决。
因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本,不停地对结点进行划分,因此这会导致整棵树的分支过多,也就导致了过拟合。决策树的剪枝策略最基本的有两种:预剪枝和后剪枝:
原文:https://www.cnblogs.com/stream886/p/10506772.html