计算机系统应用教程网站

网站首页 > 技术文章 正文

轻松理解机器学习算法:CART算法 cart算法原理

btikc 2024-11-12 09:50:59 技术文章 3 ℃ 0 评论


1、CART概述

分类与回归树(Classification and Regression Tree,CART)模型由 Breiman 等人在 1984 年提出的,是一种典型的决策树算法。与ID3算法和C4.5算法相比,CART除了可以用于分类任务外,还可以完成回归分析。

2、CART算法的核心

CART算法由两步构成:

  • 决策树生成:基于训练数据集生成决策树,自上而下从根开始建立节点,在每个节点处要选择一个最好的属性来分裂,使得子节点中的训练集尽量的纯。
  • 决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树。剪枝可以看作决策树算法的一种正则化手段,作为一种监督学习方法,决策树在训练过程中很容易过拟合,从而导致决策树泛化性能不强。

3、CART的生成

  • 使用CART算法选择特征。具体而言,1)对于回归树,基于平方误差最小化准则进行特征选择;2)对于分类树,基于基尼指数(GINI)最小化准则进行特征选择。
  • 根据特征分割数据集。
  • 构建数。

4、CART的算法的特点

  • CART是一棵二叉树;
  • CART算法主要包括回归树和分类树两种。回归树适用于目标变量为连续型的建模任务,其特征选择准则使用的是平方误差最小准则。分类树适用于目标变量为离散型的建模任务,其特征选择准则使用的是基尼指数(Gini Index)。CART算法核心在于递归地选择最优特征构建决策树。
  • CART作为一种GBDT的基模型,当很多棵CART分类树或者回归树集成起来的时候,就形成了GBDT模型。

5、CART算法的优缺点

优点

  • 简单直观,容易理解;
  • 不需要处理缺失值;
  • 既可以处理离散值,又可以处理连续值;
  • 可以处理多分类问题;
  • 对异常点的容错性好。

缺点

  • 容易产生过拟合;
  • 敏感性高,即使样本发生一点点改动,也会导致整个树结构的变化;
  • 寻找最优决策树容易陷入局部最优;
  • 无法表达如异或这类的复杂问题。

(本文部分内容来自https://www.pythonf.cn/read/143055)

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表