输出是连续变量的是回归树,输出是离散变量的是分类树。
CART决策树是一个二叉树。
输入空间划分为M个单元 ,单元
对应输出
,
是其对应的输入空间。
输出 取
上所有输出的均值:
下面,看输入空间的划分方法。
假设最优切分变量 ,最优切分点
,输入空间被划分为两部分:
它们的输出是各自输入空间中样本标签值 的均值
和
。
因此,优化目标为:
穷举 ,找到最优切分变量
和切分点
。
之后,分治递归直到满足终止条件(例如误差小于某阈值、样本个数小于某阈值、没有更多特征等)。
一个样本集合 的基尼指数(值越大,不确定性越大):
其中, 是属于第
类的样本子集。
将样本集合 划分为
和
的两部分
和
,对这种划分定义基尼指数:
它表征了经分割后,样本集合D的不确定性,同样地,基尼指数越小,样本不确定性越小。
选择使 最小的
。
之后,分治递归直到满足终止条件即可。
原文:https://www.cnblogs.com/ai-ldj/p/14269246.html