首页 > 其他 > 详细

CART回归树与分类树

时间:2021-01-12 23:25:46      阅读:29      评论:0      收藏:0      [点我收藏+]

 

输出是连续变量的是回归树,输出是离散变量的是分类树。

CART决策树是一个二叉树。

回归树:

技术分享图片

输入空间划分为M个单元 技术分享图片 ,单元 技术分享图片 对应输出 技术分享图片 , 技术分享图片 是其对应的输入空间。

输出 技术分享图片 取 技术分享图片 上所有输出的均值:

技术分享图片

下面,看输入空间的划分方法。

假设最优切分变量 技术分享图片 ,最优切分点 技术分享图片 ,输入空间被划分为两部分:

技术分享图片

它们的输出是各自输入空间中样本标签值 技术分享图片 的均值 技术分享图片 和 技术分享图片 。

因此,优化目标为:

技术分享图片

穷举 技术分享图片 ,找到最优切分变量 技术分享图片 和切分点 技术分享图片 。

之后,分治递归直到满足终止条件(例如误差小于某阈值、样本个数小于某阈值、没有更多特征等)。

分类树:

一个样本集合 技术分享图片 的基尼指数(值越大,不确定性越大):

技术分享图片

其中, 技术分享图片 是属于第 技术分享图片 类的样本子集。

将样本集合 技术分享图片 划分为技术分享图片 和 技术分享图片 的两部分 技术分享图片 和 技术分享图片 ,对这种划分定义基尼指数:

技术分享图片

它表征了经分割后,样本集合D的不确定性,同样地,基尼指数越小,样本不确定性越小。

选择使 技术分享图片 最小的 技术分享图片 。

之后,分治递归直到满足终止条件即可。

CART回归树与分类树

原文:https://www.cnblogs.com/ai-ldj/p/14269246.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!