一、定义

CART全称为classification and regression tree,即分类与回归树。CART特征选择算法既可以用于分类树也可以用于回归树。CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树,内部节点特征的取值为“是”和“否”。这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是在输入给定的条件下输出的条件概率分布。

二、CART分类树

CART分类树采用基尼指数最小化原则来进行特征选择,生成二叉树。本质上与上一节讲的ID3、C4.5算法类似,只不过CART分类树将划分指标换成了基尼指数,基尼指数的计算上一节在文章开头已经讲过了,这里直接以上一节的贷款例子来演示一下计算过程。
首先计算各个特征的基尼指数,选择最优特征及其最优切分点,仍然以A1,A2,A3,A4表示年龄,有工作,有自己的房子和信贷情况四个特征,并且以1,2,3表示年龄的青年、中年和老年,以1,2表示有工作和有自己的房子的是否,以1,2,3表示信贷情况的非常好、好和一般。

三、CART回归树

WX20220517-170741@2x.png

参考:
1.https://blog.csdn.net/weixin_49717022/article/details/118891439

标签: none

添加新评论